Pyarrow применяет схему при использовании pandas to_parquet()Python

Программы на Python
Ответить
Anonymous
 Pyarrow применяет схему при использовании pandas to_parquet()

Сообщение Anonymous »

У меня очень широкий фрейм данных (20 000 столбцов), который в Pandas в основном состоит из столбцов float64. Я хочу преобразовать эти столбцы в float32 и записать в формат Parquet. Я делаю это, потому что нижним пользователем этих файлов являются небольшие контейнеры с ограниченной памятью.

В настоящее время я использую Pandas, но это очень медленно для широкого набора данных, а затем записываю в паркет. Можно ли привести типы во время самого процесса записи to_parquet? Ниже показан фиктивный пример.

import pandas as pd
import numpy as np
import pyarrow
df = pd.DataFrame(np.random.randn(3000, 15000)) # make dummy data set
df.columns = [str(x) for x in list(df)] # make column names string for parquet
df[list(df.loc[:, df.dtypes == float])] = df[list(df.loc[:, df.dtypes == float])].astype('float32') # cast the data
df.to_parquet("myfile.parquet") # write out the df


Подробнее здесь: https://stackoverflow.com/questions/528 ... to-parquet
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»