Я строю инструмент
< /ul>
Вот функция нормализации: < /p>
def normalize_txt(t: str) -> str:
t = unicodedata.normalize('NFKC', t)
t = PUNCT_PAT.sub('', t)
return t.lower()
< /code>
Пробое: < /p>
Ручная заменить карту-работы, но поддержание кошмар. переполнен. Предотвращает 3 → 3.3, но все еще нуждается в лучшем соответствии.>
Подробнее здесь: https://stackoverflow.com/questions/796 ... acters-how
В поисках китайской главы слишком много узлов из -за вариантов персонажей - как я могу сохранить его полностью локальным ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение