Извлечение текста из PDF на арабском языке и получение текста задом наперед

Извлечение текста из PDF на арабском языке и получение текста задом наперед ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Извлечение текста из PDF на арабском языке и получение текста задом наперед

Цитата

Сообщение Anonymous » 29 ноя 2024, 17:05

Я написал скрипт на Python, который берет PDF-файл с фразами и извлекает их в колоду Anki. Сценарий отлично работал с несемитскими языками, но когда кто-то попросил меня сделать аналогичную колоду на арабском языке, я столкнулся с проблемой. На арабском языке вы пишете справа налево, но предложение, которое я получаю, написано слева. Должно быть, что-то на этапе извлечения требует чего-то дополнительного для работы с семитскими языками, я просто не знаю, что это такое.
Пример:
Самый текст:

Текст, который я получил:
предложение = "AR.(ةناشطع ♀) ناشطع نينكلو (ةعئاج تسل ♀) ،اعئاج تسل"
Я использовал PyPDF2 для извлечения текста и попробовал arabic-reshaper 2.1.4 и python-bidi, чтобы решить эту проблему, но безрезультатно. Я также пробовал перевернуть в различных формах, но он также меняет местами знаки препинания, такие как "(".
Есть идеи?

Подробнее здесь: https://stackoverflow.com/questions/750 ... wards-text

1732889158

Anonymous

Я написал скрипт на Python, который берет PDF-файл с фразами и извлекает их в колоду Anki. Сценарий отлично работал с несемитскими языками, но когда кто-то попросил меня сделать аналогичную колоду на арабском языке, я столкнулся с проблемой. На арабском языке вы пишете справа налево, но предложение, которое я получаю, написано слева. Должно быть, что-то на этапе извлечения требует чего-то дополнительного для работы с семитскими языками, я просто не знаю, что это такое.
Пример:
Самый текст:
[img]https://i.sstatic.net/6Cygr.png[/img]

Текст, который я получил:
предложение = "AR.(ةناشطع ♀) ناشطع نينكلو (ةعئاج تسل ♀) ،اعئاج تسل"
Я использовал PyPDF2 для извлечения текста и попробовал arabic-reshaper 2.1.4 и python-bidi, чтобы решить эту проблему, но безрезультатно. Я также пробовал перевернуть в различных формах, но он также меняет местами знаки препинания, такие как "(".
Есть идеи? 

Подробнее здесь: [url]https://stackoverflow.com/questions/75050321/extracting-text-from-pdf-in-arabic-language-and-getting-backwards-text[/url]