Паркет Pyarrow не совершает поездку туда и обратно, для очень простого примераPython

Программы на Python
Ответить
Anonymous
 Паркет Pyarrow не совершает поездку туда и обратно, для очень простого примера

Сообщение Anonymous »

Код: Выделить всё

import numpy as np
import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq

table = pa.Table.from_pandas(pd.DataFrame(data={'a':np.arange(100)}))

with open('example.parquet', 'wb') as f:
pq.write_table(table, f)

with open('example.parquet', 'rb') as ff:
read_table = pq.read_table(ff)
тогда возвращает

Код: Выделить всё

pyarrow.Table
a: int64
----
a: [[0,1,2,3,4,...,95,96,97,98,99]]
и

Код: Выделить всё

read_table
возвращает

Код: Выделить всё

pyarrow.Table
a: int64
----
a: [[0,1,2,3,4,...,95,96,97,98,99]]
но

Код: Выделить всё

table['a'].nbytes
это и

Код: Выделить всё

read_table['a'].nbytes
это Таблицы и их схемы сравниваются как равные.
Как объяснить несоответствие? Контекст таков: я пытаюсь вычислить хэш двух таблиц pyarrow, и этот хеш должен быть стабильным при записи/чтении в/из паркета.

Подробнее здесь: https://stackoverflow.com/questions/792 ... le-example
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»