import numpy as np
import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq
table = pa.Table.from_pandas(pd.DataFrame(data={'a':np.arange(100)}))
with open('example.parquet', 'wb') as f:
pq.write_table(table, f)
with open('example.parquet', 'rb') as ff:
read_table = pq.read_table(ff)
Таблицы и их схемы сравниваются как равные.
Как объяснить несоответствие? Контекст таков: я пытаюсь вычислить хэш двух таблиц pyarrow, и этот хеш должен быть стабильным при записи/чтении в/из паркета.
with open('example.parquet', 'wb') as f: pq.write_table(table, f)
with open('example.parquet', 'rb') as ff: read_table = pq.read_table(ff) [/code] тогда [code]table [/code] возвращает [code]pyarrow.Table a: int64 ---- a: [[0,1,2,3,4,...,95,96,97,98,99]] [/code] и [code]read_table [/code] возвращает [code]pyarrow.Table a: int64 ---- a: [[0,1,2,3,4,...,95,96,97,98,99]] [/code] но [code]table['a'].nbytes [/code] это [code]800 [/code] и [code]read_table['a'].nbytes [/code] это [code]813 [/code] Таблицы и их схемы сравниваются как равные. Как объяснить несоответствие? Контекст таков: я пытаюсь вычислить хэш двух таблиц pyarrow, и этот хеш должен быть стабильным при записи/чтении в/из паркета.