Тема моделирования множества документов с небольшими затратами памяти

Тема моделирования множества документов с небольшими затратами памяти ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Тема моделирования множества документов с небольшими затратами памяти

Цитата

Сообщение Anonymous » 25 сен 2024, 00:57

Я работал над проектом тематического моделирования с использованием BERTopic 0.16.3, и предварительные результаты были многообещающими. Однако по мере развития проекта и появления требований я столкнулся с конкретной проблемой масштабируемости.
А именно:

< li>Для разработки/тестирования необходимо достаточно быстро обучиться на умеренном количестве документов (от десятков тысяч до нескольких сотен тысяч)
Наши машины для разработки — Mac, так что это вероятно, придется выполнять на ЦП

[*]Для производства необходимо обучение на большом количестве документов (несколько миллионов ) без увеличения использования памяти

Для базового уровня, с настройками по умолчанию на моем компьютере, BERTopic имеет пиковое использование памяти примерно 35 КБ на документ, что легко превращается в сотни ГБ или даже ТБ для объема данных, которые будут предоставлены в рабочей среде.
В идеале пиковое использование памяти должно быть сублинейным в зависимости от количества документов.
< /ul>

Последнее требование требует пакетной обработки документов, поскольку для одновременной загрузки их всех в память требуется линейная память. Итак, я изучал алгоритмы кластеризации, которые работают с тематическим онлайн-моделированием. В документации BERTopic предлагается использовать MiniBatchKMeans от scikit-learn, но результаты, которые я получаю от этого, не очень хорошие.
Некоторые модели, которые я рассматривал, включают:

Код: Выделить всё
```
Birch
```
через scikit-learn: использует даже больше памяти, чем стандартный HDBSCAN BERTopic, даже при пакетной обработке. Также работает намного медленнее.
Код: Выделить всё
```
IncrementalDBSCAN
```
через incdbscan: поначалу это казалось многообещающим, но время выполнения и, в конечном итоге, объем памяти раздулись. Для примерно 120 тысяч документов в пакетах по 5000 он не использовал более 4 ГБ ОЗУ в течение первых 3,5 часов, но не завершил работу в течение десяти часов и в какой-то момент в середине использовал почти 40 ГБ ОЗУ.
Код: Выделить всё
```
AgglomerativeClustering
```
через scikit-learn: дал очень хорошие результаты при первоначальном тестировании (возможно, даже лучше, чем HDBSCAN), но он не реализует метод parts_fit. Я нашел этот ответ на другой вопрос, в котором говорится, что можно обучить два из них, используя одну связь, независимо, а затем объединить их, но не указано, как это сделать.

Последние два также не предоставляют метод прогнозирования, что ограничивает их полезность.
Я новичок в этой теме, так что, возможно, я подхожу к этому совершенно неверно, и непосредственная проблема, которую я пытаюсь решить, не имеет решения. Чтобы внести ясность, на базовом уровне я пытаюсь ответить на вопрос: Как мне выполнить тематическое моделирование (и получить хорошие результаты) для большого количества документов, не используя слишком много памяти? >

Подробнее здесь: https://stackoverflow.com/questions/790 ... y-overhead

1727215052

Anonymous

Я работал над проектом тематического моделирования с использованием BERTopic 0.16.3, и предварительные результаты были многообещающими. Однако по мере развития проекта и появления требований я столкнулся с конкретной проблемой масштабируемости.
А именно:
[list]
< li>Для разработки/тестирования необходимо достаточно быстро обучиться на умеренном количестве документов (от десятков тысяч до нескольких сотен тысяч)

[*]Наши машины для разработки — Mac, так что это вероятно, придется выполнять на ЦП
[/list]

[*]Для производства необходимо обучение на большом количестве документов (несколько миллионов ) без увеличения использования памяти
[list]
Для базового уровня, с настройками по умолчанию на моем компьютере, BERTopic имеет пиковое использование памяти примерно 35 КБ на документ, что легко превращается в сотни ГБ или даже ТБ для объема данных, которые будут предоставлены в рабочей среде.
[*]В идеале пиковое использование памяти должно быть сублинейным в зависимости от количества документов.
< /ul>

[/list]
Последнее требование требует пакетной обработки документов, поскольку для одновременной загрузки их всех в память требуется линейная память. Итак, я изучал алгоритмы кластеризации, которые работают с тематическим онлайн-моделированием. В документации BERTopic предлагается использовать MiniBatchKMeans от scikit-learn, но результаты, которые я получаю от этого, не очень хорошие.
Некоторые модели, которые я рассматривал, включают:
[list]
[*][code]Birch[/code] через scikit-learn: использует даже больше памяти, чем стандартный HDBSCAN BERTopic, даже при пакетной обработке. Также работает намного медленнее.
[*][code]IncrementalDBSCAN[/code] через incdbscan: поначалу это казалось многообещающим, но время выполнения и, в конечном итоге, объем памяти раздулись. Для примерно 120 тысяч документов в пакетах по 5000 он не использовал более 4 ГБ ОЗУ в течение первых 3,5 часов, но не завершил работу в течение десяти часов и в какой-то момент в середине использовал почти 40 ГБ ОЗУ.
[code]AgglomerativeClustering[/code] через scikit-learn: дал очень хорошие результаты при первоначальном тестировании (возможно, даже лучше, чем HDBSCAN), но он не реализует метод parts_fit. Я нашел этот ответ на другой вопрос, в котором говорится, что можно обучить два из них, используя одну связь, независимо, а затем объединить их, но не указано, как это сделать.
[/list]
Последние два также не предоставляют метод прогнозирования, что ограничивает их полезность.
Я новичок в этой теме, так что, возможно, я подхожу к этому совершенно неверно, и непосредственная проблема, которую я пытаюсь решить, не имеет решения. Чтобы внести ясность, на базовом уровне я пытаюсь ответить на вопрос: [b]Как мне выполнить тематическое моделирование (и получить хорошие результаты) для большого количества документов, не используя слишком много памяти?[/b] > 

Подробнее здесь: [url]https://stackoverflow.com/questions/79020484/topic-modelling-many-documents-with-low-memory-overhead[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Тема моделирования множества документов с небольшими затратами памяти

Последнее сообщение Anonymous « 25 сен 2024, 07:16
Добавлено в форуме Python

Anonymous » 25 сен 2024, 07:16 » в форуме Python

Я работал над проектом тематического моделирования с использованием BERTopic 0.16.3, и предварительные результаты были многообещающими. Однако по мере развития проекта и появления требований я столкнулся с конкретной проблемой масштабируемости.
А...

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
25 сен 2024, 07:16
Заполнить 52-канальный массив имен карт из множества костюмов и множества рядов

Последнее сообщение Anonymous « 23 фев 2025, 09:52
Добавлено в форуме Php

Anonymous » 23 фев 2025, 09:52 » в форуме Php

У меня возникают проблемы с получением значений, которые я толкаю в массив своих карт. Я не знаю, если я не называю правильным свойством или просто неправильно добавляю в массив.

Подробнее здесь:

0 Ответы

31 Просмотры

Последнее сообщение Anonymous
23 фев 2025, 09:52
Запустите Kafkalistner (тема 1) после другого Кафкалистнера (уплотненная тема 2) Завершено чтение сообщений

Последнее сообщение Anonymous « 17 июл 2025, 12:51
Добавлено в форуме JAVA

Anonymous » 17 июл 2025, 12:51 » в форуме JAVA

У меня есть сценарий, в котором я должен прочитать все сообщения из уплотненной темы (тема 2) с начала. Я должен сохранить все эти сообщения в памяти, которые будут действовать как поиск/кэш.

Подробнее здесь:

0 Ответы

13 Просмотры

Последнее сообщение Anonymous
17 июл 2025, 12:51
Тема приложения применяется дважды при первой установке с устройствами и настройками пользователя. Имеет другая тема

Последнее сообщение Anonymous « 29 июл 2025, 18:24
Добавлено в форуме Android

Anonymous » 29 июл 2025, 18:24 » в форуме Android

Я сталкиваюсь с проблемой с приложением темы в моем приложении Android. /> Предпочтительная тема приложения пользователей (от ответа API) - light

Приложение в конечном итоге применяя тему дважды , что приводит к перезагрузке или протеканию (как...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
29 июл 2025, 18:24
Есть ли у нас зависимость Java Gradle для экспорта данных о выставлении счетов и управлении затратами AWS?

Последнее сообщение Anonymous « 23 май 2024, 15:19
Добавлено в форуме JAVA

Anonymous » 23 май 2024, 15:19 » в форуме JAVA

` Постановка проблемы: я хочу создать DailyCostAndUsagesReport с использованием функции DataExport, которая присутствует в Службе выставления счетов и управления затратами Aws. Я использую AwsSDK, поэтому для этого мне нужна зависимость Gradle,...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
23 май 2024, 15:19

Вернуться в «Python»