Нормализация не всегда приводит к сопоставлению символов 1-1. Такие символы, как «фи», преобразуются в «фи», а некоторые японские/китайские символы могут объединяться в один символ. Мне нужен способ сопоставить смещения между нормализованными и исходными строками. Существует ли какая-либо библиотека или метод для точного решения этой проблемы?
Использование приближений путем поиска окружающих символов, на которые не влияет нормализация, таких как английские буквы и пробелы, помогает, но недостаточно точно. .
Подробнее здесь: https://stackoverflow.com/questions/784 ... y-use-case
Как обрабатывать изменения длины из-за нормализации (NFKC для моего варианта использования)? ⇐ C++
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
В чем отличие от параллельного варианта и варианта без ожидания в pyinfra
Anonymous » » в форуме Python - 0 Ответы
- 41 Просмотры
-
Последнее сообщение Anonymous
-