Используйте gensim с итерацией Pyarrow ⇐ Python
Используйте gensim с итерацией Pyarrow
Рассмотрите этот код
импортировать pyarrow.parquet как pq из gensim.models импортировать Word2Vec parquet_file = pq.ParquetFile('/mybigparquet.pq') для меня в parquet_file.iter_batches(batch_size=100): print("обучение в пакетном режиме") пакет = i.to_pandas() модель = Word2Vec (предложения = пакет. токены, вектор_размер = 100, окно = 5, рабочие = 40, min_count = 10, эпохи = 10) Как видите, я пытаюсь обучить модель word2vec, используя очень большой файл паркета, который не полностью помещается в мою оперативную память. Я знаю, что gensim может работать с итерациями (а не с генераторами, поскольку данные необходимо дважды сканировать в word2vec), и я знаю, что pyarrow позволяет мне генерировать пакеты (даже одну строку) из файла.
Однако этот код работает неправильно. Я думаю, мне нужно написать цикл pyarrow как полноценный генератор, но я не знаю, как это сделать.
Что вы думаете? Спасибо!
Рассмотрите этот код
импортировать pyarrow.parquet как pq из gensim.models импортировать Word2Vec parquet_file = pq.ParquetFile('/mybigparquet.pq') для меня в parquet_file.iter_batches(batch_size=100): print("обучение в пакетном режиме") пакет = i.to_pandas() модель = Word2Vec (предложения = пакет. токены, вектор_размер = 100, окно = 5, рабочие = 40, min_count = 10, эпохи = 10) Как видите, я пытаюсь обучить модель word2vec, используя очень большой файл паркета, который не полностью помещается в мою оперативную память. Я знаю, что gensim может работать с итерациями (а не с генераторами, поскольку данные необходимо дважды сканировать в word2vec), и я знаю, что pyarrow позволяет мне генерировать пакеты (даже одну строку) из файла.
Однако этот код работает неправильно. Я думаю, мне нужно написать цикл pyarrow как полноценный генератор, но я не знаю, как это сделать.
Что вы думаете? Спасибо!
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
ОШИБКА: Не удалось построить колесо для pyarrow (Не удалось построить pyarrow)
Anonymous » » в форуме Python - 0 Ответы
- 57 Просмотры
-
Последнее сообщение Anonymous
-
-
-
ОШИБКА: Не удалось построить колесо для pyarrow (Не удалось построить pyarrow)
Anonymous » » в форуме Python - 0 Ответы
- 43 Просмотры
-
Последнее сообщение Anonymous
-
-
-
ОШИБКА: Не удалось построить колесо для pyarrow (Не удалось построить pyarrow)
Anonymous » » в форуме Python - 0 Ответы
- 21 Просмотры
-
Последнее сообщение Anonymous
-