Как обойти проблемы с памятью при загрузке n-грамм из большого корпуса в набор

Как обойти проблемы с памятью при загрузке n-грамм из большого корпуса в набор ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как обойти проблемы с памятью при загрузке n-грамм из большого корпуса в набор

Цитата

Сообщение Anonymous » 04 янв 2024, 16:39

Я пытался реализовать алгоритм обучения без учителя, который сопоставляет сходство на основе конкретных функций, извлеченных из корпуса. Одним из вариантов использования является идентификация автора. Алгоритм работает следующим образом: из обучающего корпуса извлекаются различные типы n-грамм, а затем каждый автор получает «отпечаток пальца», исходя из того, какие n-граммы присутствуют в статье.

Для этого мне сначала нужно собрать все n-граммы, которые присутствуют в обучающем корпусе. И здесь я столкнулся с проблемами с памятью: я использовал данные обзора Yelp, и в какой-то момент моя программа вышла из строя из-за ограничений памяти. Я пытался сохранить промежуточные результаты, а затем загрузить n-граммы в окончательный набор, чтобы избежать потенциальных проблем с утечкой памяти из-за моих пространственных вычислений, но это также не помогло, похоже, набор слишком велик.

Как это обойти?

1704375571

Anonymous


Я пытался реализовать алгоритм обучения без учителя, который сопоставляет сходство на основе конкретных функций, извлеченных из корпуса. Одним из вариантов использования является идентификация автора. Алгоритм работает следующим образом: из обучающего корпуса извлекаются различные типы n-грамм, а затем каждый автор получает «отпечаток пальца», исходя из того, какие n-граммы присутствуют в статье.
 
Для этого мне сначала нужно собрать все n-граммы, которые присутствуют в обучающем корпусе. И здесь я столкнулся с проблемами с памятью: я использовал данные обзора Yelp, и в какой-то момент моя программа вышла из строя из-за ограничений памяти. Я пытался сохранить промежуточные результаты, а затем загрузить n-граммы в окончательный набор, чтобы избежать потенциальных проблем с утечкой памяти из-за моих пространственных вычислений, но это также не помогло, похоже, набор слишком велик.
 
Как это обойти?

Ответить

1 сообщение • Страница 1 из 1