Оптимизация построения Trie во Flashtext для больших наборов данных с ключом-значением

Оптимизация построения Trie во Flashtext для больших наборов данных с ключом-значением ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Оптимизация построения Trie во Flashtext для больших наборов данных с ключом-значением

Цитата

Сообщение Anonymous » 10 апр 2024, 10:44

В настоящее время я столкнулся с проблемой: мне нужно заменить большое количество слов в наборе данных. У меня около 16 миллионов пар слов «ключ-значение». Для замены я использую Flashtext, который работает хорошо. Однако проблема возникает при создании словаря дерева, используемого Flashtext для быстрого поиска. Создание этого словаря для 16 миллионов пар ключ-значение занимает примерно 45 минут.
официальный репозиторий flashtext
Существуют ли более быстрые реализации для создания тройных данных состав? Можно ли это реализовать с помощью параллельной обработки?

Подробнее здесь: https://stackoverflow.com/questions/783 ... e-datasets

1712735045

Anonymous

В настоящее время я столкнулся с проблемой: мне нужно заменить большое количество слов в наборе данных. У меня около 16 миллионов пар слов «ключ-значение». Для замены я использую Flashtext, который работает хорошо. Однако проблема возникает при создании словаря дерева, используемого Flashtext для быстрого поиска. Создание этого словаря для 16 миллионов пар ключ-значение занимает примерно 45 минут.
официальный репозиторий flashtext
Существуют ли более быстрые реализации для создания тройных данных состав? Можно ли это реализовать с помощью параллельной обработки? 

Подробнее здесь: [url]https://stackoverflow.com/questions/78302299/optimizing-trie-construction-in-flashtext-for-large-key-value-datasets[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Оптимизация производительности алгоритма сортировки для больших целочисленных наборов данных в Java

Последнее сообщение Anonymous « 11 июл 2024, 18:05
Добавлено в форуме JAVA

Anonymous » 11 июл 2024, 18:05 » в форуме JAVA

Я реализовал на Java алгоритмы быстрой сортировки и сортировки слиянием, но они работают неэффективно при сортировке больших наборов данных целых чисел (от 1 до 100 000). Процесс сортировки занимает больше времени, чем ожидалось, особенно по мере...

0 Ответы

15 Просмотры

Последнее сообщение Anonymous
11 июл 2024, 18:05
Оптимизация отношений «один ко многим» для больших наборов данных в прогнозировании продаж

Последнее сообщение Anonymous « 19 окт 2024, 17:48
Добавлено в форуме Python

Anonymous » 19 окт 2024, 17:48 » в форуме Python

# Convert to Polars DataFrame
try:
df = pl.from_pandas(data)
print('Conversion to Polars DataFrame done...')
except Exception as e:
return JsonResponse({'error': f'Error converting to Polars DataFrame: {str(e)}'}, status=500)

# Ensure the necessary...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
19 окт 2024, 17:48
Оптимизация Pandas GroupBy и агрегирование больших наборов данных с помощью нескольких пользовательских функций

Последнее сообщение Anonymous « 24 окт 2024, 09:16
Добавлено в форуме Python

Anonymous » 24 окт 2024, 09:16 » в форуме Python

Я работаю с большим фреймом данных Pandas ( около 30,5 миллионов строк ), где мне нужно сгруппировать данные по нескольким столбцам и применить различные пользовательские функции агрегирования. Однако производительность в настоящее время является...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
24 окт 2024, 09:16
Оптимизация Pandas GroupBy и агрегирование больших наборов данных с помощью нескольких пользовательских функций

Последнее сообщение Anonymous « 24 окт 2024, 12:25
Добавлено в форуме Python

Anonymous » 24 окт 2024, 12:25 » в форуме Python

Я работаю с большим фреймом данных Pandas ( около 30,5 миллионов строк ), где мне нужно сгруппировать данные по нескольким столбцам и применить различные пользовательские функции агрегирования. Однако производительность в настоящее время является...

0 Ответы

21 Просмотры

Последнее сообщение Anonymous
24 окт 2024, 12:25
Перечислите все доступные имена наборов данных, содержащиеся в наборе данных наборов данных Hugginface.

Последнее сообщение Anonymous « 11 окт 2024, 19:56
Добавлено в форуме Python

Anonymous » 11 окт 2024, 19:56 » в форуме Python

Я хочу знать, какие наборы данных включены, например. эта коллекция наборов данных Huggingface:

m4_daily и weatherbench_daily упоминаются явно, но их должно быть больше .
Меня не интересует список всех таких коллекций.
Я получаю список через...

0 Ответы

36 Просмотры

Последнее сообщение Anonymous
11 окт 2024, 19:56

Вернуться в «Python»