В настоящее время я столкнулся с проблемой: мне нужно заменить большое количество слов в наборе данных. У меня около 16 миллионов пар слов «ключ-значение». Для замены я использую Flashtext, который работает хорошо. Однако проблема возникает при создании словаря дерева, используемого Flashtext для быстрого поиска. Создание этого словаря для 16 миллионов пар ключ-значение занимает примерно 45 минут.
официальный репозиторий flashtext
Существуют ли более быстрые реализации для создания тройных данных состав? Можно ли это реализовать с помощью параллельной обработки?
Подробнее здесь: https://stackoverflow.com/questions/783 ... e-datasets
Оптимизация построения Trie во Flashtext для больших наборов данных с ключом-значением ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Оптимизация отношений «один ко многим» для больших наборов данных в прогнозировании продаж
Anonymous » » в форуме Python - 0 Ответы
- 13 Просмотры
-
Последнее сообщение Anonymous
-