Я делаю проект NLP со своим университетом, собирая данные о словах на исландском языке, которые существуют как с помощью I, так и с Y (они звучат одинаково в Исланландском языке), где варианты являются реальными словами, но не означают одно и то же. Примеры этого будут включать в себя Лейти (приближение во времени) и Лейти (травянистый холм) или Киркджа (церковь) и Киркья (дроссель). У меня есть набор данных из 2 миллионов слов. Я уже собрал две списки слов, одна из которых включает в себя слова, написанные Y, и один включает в себя те же слова, написанные I (хотя они, кажется, не совпадают полностью, так как Y-лист немного длиннее, но это отдельная проблема). Моя проблема в том, что я хочу получить пары слов, таких как Leyti - Leiti, Kyrkja - Kirkja и т. Д., Но, как Y намного позже в алфавите, чем я, это нехорошо, просто сортируя списки и соединяю их таким образом. Я также попытался заселить списки, проверяя первые несколько букв, чтобы увидеть, смогу ли я найти совпадение, но это оставляет все слова, которые имеют Y или I в качестве первой буквы. У вас есть предложение о том, как я могу это реализовать?
Подробнее здесь: https://stackoverflow.com/questions/580 ... abetically
Сопоставление вариантов с двумя словами друг с другом, если они не совпадают в алфавитном порядке ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Каждый раз база данных дамбов Postgres PG_DUMP в другом порядке в другом порядке
Anonymous » » в форуме Php - 0 Ответы
- 3 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Каждый раз база данных дамбов Postgres PG_DUMP в другом порядке в другом порядке
Anonymous » » в форуме Php - 0 Ответы
- 4 Просмотры
-
Последнее сообщение Anonymous
-