Извлечение текста из PDF на арабском языке и обратный текст

Извлечение текста из PDF на арабском языке и обратный текст ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Извлечение текста из PDF на арабском языке и обратный текст

Цитата

Сообщение Anonymous » 05 июл 2025, 21:18

Я сделал сценарий Python, который принимает PDF с фразами и извлекая их в колоду ANKI. Сценарий отлично работал с не семитскими языками, но когда кто -то попросил меня сделать подобную колоду на арабском языке, я столкнулся с проблемой. На арабском языке вы пишете справа налево, но предложение, которое я получаю, написано слева, чтобы написать. Это должно быть что -то в фазе извлечения, которым нужно что -то дополнительное для работы с полутовыми языками, я просто не знаю, что это такое. get:
pretence = "ar. (ةناشطع ♀) ناشطع نينكلو (ةعئاج تسل ♀) ، اعئاج تسل" < /p>
Я использовал pypdf2, чтобы извлечь текст и попробовать арабский риш 2.1.4 и python-bid Я также попробовал Обратный в различных формах, но это также меняет знаки пунктуации, такие как «(".
Есть идеи?

Подробнее здесь: https://stackoverflow.com/questions/750 ... wards-text

1751739536

Anonymous

 Я сделал сценарий Python, который принимает PDF с фразами и извлекая их в колоду ANKI. Сценарий отлично работал с не семитскими языками, но когда кто -то попросил меня сделать подобную колоду на арабском языке, я столкнулся с проблемой. На арабском языке вы пишете справа налево, но предложение, которое я получаю, написано слева, чтобы написать. Это должно быть что -то в фазе извлечения, которым нужно что -то дополнительное для работы с полутовыми языками, я просто не знаю, что это такое. get:
pretence = "ar. (ةناشطع ♀) ناشطع نينكلو (ةعئاج تسل ♀) ، اعئاج تسل" < /p>
Я использовал pypdf2, чтобы извлечь текст и попробовать арабский риш 2.1.4 и python-bid Я также попробовал  Обратный  в различных формах, но это также меняет знаки пунктуации, такие как «(".
Есть идеи?  

Подробнее здесь: [url]https://stackoverflow.com/questions/75050321/extracting-text-from-pdf-in-arabic-language-and-getting-backwards-text[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Извлечение текста из PDF на арабском языке и получение текста задом наперед

Последнее сообщение Anonymous « 29 ноя 2024, 17:05
Добавлено в форуме Python

Anonymous » 29 ноя 2024, 17:05 » в форуме Python

Я написал скрипт на Python, который берет PDF-файл с фразами и извлекает их в колоду Anki. Сценарий отлично работал с несемитскими языками, но когда кто-то попросил меня сделать аналогичную колоду на арабском языке, я столкнулся с проблемой. На...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
29 ноя 2024, 17:05
Почему обратный адрес Geocoder Locale.US на арабском языке в Дубае

Последнее сообщение Anonymous « 28 окт 2024, 10:02
Добавлено в форуме Android

Anonymous » 28 окт 2024, 10:02 » в форуме Android

Geocoder geocoder = new Geocoder(this, Locale.US);

Приведенный выше код возвращает адрес на английском языке независимо от языка устройства. Но в Дубае приведенный выше код не работает и возвращает адрес на арабском языке.
Как мне получить адрес...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
28 окт 2024, 10:02
Itext Html в PDF Текст на арабском языке не работает

Последнее сообщение Anonymous « 24 июн 2024, 12:43
Добавлено в форуме C#

Anonymous » 24 июн 2024, 12:43 » в форуме C#

Когда я конвертирую HTML в PDF на C#, арабский текст ломается и кажется перевернутым.
Я пробовал направление rtl, добавляя арабские шрифты.

/EDOzUpZP.png

.arabic {
direction: rtl;
unicode-bidi: isolate;
font-family: 'NotoNaskhArabic',...

0 Ответы

32 Просмотры

Последнее сообщение Anonymous
24 июн 2024, 12:43
Itext Html в PDF Текст на арабском языке не работает

Последнее сообщение Anonymous « 01 июл 2024, 09:24
Добавлено в форуме C#

Anonymous » 01 июл 2024, 09:24 » в форуме C#

Когда я конвертирую HTML в PDF на C#, арабский текст ломается и кажется перевернутым.
Я пробовал направление rtl, добавляя арабские шрифты.

/EDOzUpZP.png

.arabic {
direction: rtl;
unicode-bidi: isolate;
font-family: 'NotoNaskhArabic',...

0 Ответы

26 Просмотры

Последнее сообщение Anonymous
01 июл 2024, 09:24
PDFBOX: почему текст на арабском языке, прочитанный из PDF, перемешивается, хотя в List<String> он выглядит в порядке пр

Последнее сообщение Anonymous « 21 окт 2024, 14:10
Добавлено в форуме JAVA

Anonymous » 21 окт 2024, 14:10 » в форуме JAVA

Я читаю PDF-файл на арабском языке через библиотеку PDFBOX построчно. При проверке консоли отладки я вижу, что все строки в порядке, но когда содержимое всего списка просматривается в одной строке, кажется, что текст перемешивается, а не в порядке....

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
21 окт 2024, 14:10

Вернуться в «Python»