Используйте gensim с итерацией Pyarrow ⇐ Python
-
Гость
Используйте gensim с итерацией Pyarrow
Рассмотрите этот код
импортировать pyarrow.parquet как pq из gensim.models импортировать Word2Vec parquet_file = pq.ParquetFile('/mybigparquet.pq') для меня в parquet_file.iter_batches(batch_size=100): print("обучение в пакетном режиме") пакет = i.to_pandas() модель = Word2Vec (предложения = пакет. токены, вектор_размер = 100, окно = 5, рабочие = 40, min_count = 10, эпохи = 10) Как видите, я пытаюсь обучить модель word2vec, используя очень большой файл паркета, который не полностью помещается в мою оперативную память. Я знаю, что gensim может работать с итерациями (а не с генераторами, поскольку данные необходимо дважды сканировать в word2vec), и я знаю, что pyarrow позволяет мне генерировать пакеты (даже одну строку) из файла.
Однако этот код работает неправильно. Я думаю, мне нужно написать цикл pyarrow как полноценный генератор, но я не знаю, как это сделать.
Что вы думаете? Спасибо!
Рассмотрите этот код
импортировать pyarrow.parquet как pq из gensim.models импортировать Word2Vec parquet_file = pq.ParquetFile('/mybigparquet.pq') для меня в parquet_file.iter_batches(batch_size=100): print("обучение в пакетном режиме") пакет = i.to_pandas() модель = Word2Vec (предложения = пакет. токены, вектор_размер = 100, окно = 5, рабочие = 40, min_count = 10, эпохи = 10) Как видите, я пытаюсь обучить модель word2vec, используя очень большой файл паркета, который не полностью помещается в мою оперативную память. Я знаю, что gensim может работать с итерациями (а не с генераторами, поскольку данные необходимо дважды сканировать в word2vec), и я знаю, что pyarrow позволяет мне генерировать пакеты (даже одну строку) из файла.
Однако этот код работает неправильно. Я думаю, мне нужно написать цикл pyarrow как полноценный генератор, но я не знаю, как это сделать.
Что вы думаете? Спасибо!
Мобильная версия