Я написал скрипт на Python, который берет PDF-файл с фразами и извлекает их в колоду Anki. Сценарий отлично работал с несемитскими языками, но когда кто-то попросил меня сделать аналогичную колоду на арабском языке, я столкнулся с проблемой. На арабском языке вы пишете справа налево, но предложение, которое я получаю, написано слева. Должно быть, что-то на этапе извлечения требует чего-то дополнительного для работы с семитскими языками, я просто не знаю, что это такое.
Пример:
Самый текст:
Текст, который я получил:
предложение = "AR.(ةناشطع ♀) ناشطع نينكلو (ةعئاج تسل ♀) ،اعئاج تسل"
Я использовал PyPDF2 для извлечения текста и попробовал arabic-reshaper 2.1.4 и python-bidi, чтобы решить эту проблему, но безрезультатно. Я также пробовал перевернуть в различных формах, но он также меняет местами знаки препинания, такие как "(".
Есть идеи?
Подробнее здесь:
https://stackoverflow.com/questions/750 ... wards-text