Поиск по тексту Unicode с помощью клавиатуры ASCII в Python

Поиск по тексту Unicode с помощью клавиатуры ASCII в Python ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Поиск по тексту Unicode с помощью клавиатуры ASCII в Python

Цитата

Сообщение Anonymous » 21 ноя 2025, 10:21

У меня есть корпус текста, включающий некоторые слова с акцентом, например épée, и я хотел бы, чтобы люди могли легко выполнять поиск по нему с помощью клавиатуры ASCII. В идеале им нужно было бы просто ввести protege или pinata, чтобы найти protégé или piñata. В настоящее время программа написана на Python и использует только встроенные библиотеки, такие как re.
Я рассматривал подобные вопросы, например «Почему re не игнорирует диакритические знаки», но предлагаемое решение — нормализовать строку Юникода в ASCII. Это можно было бы заставить работать, но оно кажется чрезмерно уродливым и не возвращает фактический текст, который должен отображаться. Нет ли в Python чего-либо аналогичного эквивалентности символов POSIX, которая сопоставляет похожие символы вместе в зависимости от языкового стандарта пользователя? Например,

Код: Выделить всё

grep -E '[[=e=]][[=p=]][[=e=]][[=e=]]'

соответствует как epee, так и epée (в локали en_US.UTF-8).

Подробнее здесь: https://stackoverflow.com/questions/798 ... -in-python

1763709679

Anonymous

У меня есть корпус текста, включающий некоторые слова с акцентом, например [b]épée[/b], и я хотел бы, чтобы люди могли легко выполнять поиск по нему с помощью клавиатуры ASCII. В идеале им нужно было бы просто ввести protege или pinata, чтобы найти [b]protégé[/b] или [b]piñata[/b]. В настоящее время программа написана на Python и использует только встроенные библиотеки, такие как re.
Я рассматривал подобные вопросы, например «Почему re не игнорирует диакритические знаки», но предлагаемое решение — нормализовать строку Юникода в ASCII. Это можно было бы заставить работать, но оно кажется чрезмерно уродливым и не возвращает фактический текст, который должен отображаться. Нет ли в Python чего-либо аналогичного эквивалентности символов POSIX, которая сопоставляет похожие символы вместе в зависимости от языкового стандарта пользователя? Например,[code]grep -E '[[=e=]][[=p=]][[=e=]][[=e=]]'[/code] соответствует как [b]epee[/b], так и [b]epée[/b] (в локали en_US.UTF-8). 

Подробнее здесь: [url]https://stackoverflow.com/questions/79826169/searching-through-unicode-text-with-an-ascii-keyboard-in-python[/url]

Ответить

1 сообщение • Страница 1 из 1