Как искать текст в Юникоде с вводом ASCII в Python

Как искать текст в Юникоде с вводом ASCII в Python ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как искать текст в Юникоде с вводом ASCII в Python

Цитата

Сообщение Anonymous » 25 ноя 2025, 14:02

У меня есть корпус текста, который включает некоторые слова с акцентом, например épée, и я хотел бы, чтобы люди могли легко выполнять поиск по нему, используя ввод ASCII. В идеале им нужно было бы просто ввести protege или pinata, чтобы найти protégé или piñata. В настоящее время программа написана на Python и использует только встроенные библиотеки, такие как re.
Я рассматривал подобные вопросы, например «Почему re не игнорирует диакритические знаки», но предлагаемое решение — нормализовать строку Юникода в ASCII. Это можно было бы заставить работать, но оно кажется чрезмерно уродливым и не возвращает фактический текст, который должен отображаться.
Разве в Python нет ничего аналогичного классам эквивалентности символов POSIX, которые сопоставляют похожие символы вместе в зависимости от локали пользователя? Например,

Код: Выделить всё

grep '[[=e=]][[=p=]][[=e=]][[=e=]]'

соответствует как epee, так и epée (в локали en_US.UTF-8).

Обновление: изначально я упомянул ввод через «ASCII-клавиатуру», хотя мне следовало просто сказать «ASCII-ввод». Способ ввода не имеет значения.

Подробнее здесь: https://stackoverflow.com/questions/798 ... -in-python

1764068559

Anonymous

У меня есть корпус текста, который включает некоторые слова с акцентом, например [b]épée[/b], и я хотел бы, чтобы люди могли легко выполнять поиск по нему, используя ввод ASCII. В идеале им нужно было бы просто ввести protege или pinata, чтобы найти [b]protégé[/b] или [b]piñata[/b]. В настоящее время программа написана на Python и использует только встроенные библиотеки, такие как re.
Я рассматривал подобные вопросы, например «Почему re не игнорирует диакритические знаки», но предлагаемое решение — нормализовать строку Юникода в ASCII. Это можно было бы заставить работать, но оно кажется чрезмерно уродливым и не возвращает фактический текст, который должен отображаться.
Разве в Python нет ничего аналогичного классам эквивалентности символов POSIX, которые сопоставляют похожие символы вместе в зависимости от локали пользователя? Например,[code]grep '[[=e=]][[=p=]][[=e=]][[=e=]]'[/code] соответствует как [b]epee[/b], так и [b]epée[/b] (в локали en_US.UTF-8).

Обновление: изначально я упомянул ввод через «ASCII-клавиатуру», хотя мне следовало просто сказать «ASCII-ввод». Способ ввода не имеет значения. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79826169/how-to-search-through-unicode-text-with-ascii-input-in-python[/url]

Ответить

1 сообщение • Страница 1 из 1