Используйте gensim с итерацией PyarrowPython

Программы на Python
Ответить Пред. темаСлед. тема
Гость
 Используйте gensim с итерацией Pyarrow

Сообщение Гость »


Рассмотрите этот код

импортировать pyarrow.parquet как pq из gensim.models импортировать Word2Vec parquet_file = pq.ParquetFile('/mybigparquet.pq') для меня в parquet_file.iter_batches(batch_size=100): print("обучение в пакетном режиме") пакет = i.to_pandas() модель = Word2Vec (предложения = пакет. токены, вектор_размер = 100, окно = 5, рабочие = 40, min_count = 10, эпохи = 10) Как видите, я пытаюсь обучить модель word2vec, используя очень большой файл паркета, который не полностью помещается в мою оперативную память. Я знаю, что gensim может работать с итерациями (а не с генераторами, поскольку данные необходимо дважды сканировать в word2vec), и я знаю, что pyarrow позволяет мне генерировать пакеты (даже одну строку) из файла.

Однако этот код работает неправильно. Я думаю, мне нужно написать цикл pyarrow как полноценный генератор, но я не знаю, как это сделать.

Что вы думаете? Спасибо!
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Python»