Чтение файла паркета с использованием pandas и pyarrow завершается неудачно для значений времени, превышающих 24 часа.

Чтение файла паркета с использованием pandas и pyarrow завершается неудачно для значений времени, превышающих 24 часа. ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Чтение файла паркета с использованием pandas и pyarrow завершается неудачно для значений времени, превышающих 24 часа.

Цитата

Сообщение Anonymous » 09 ноя 2024, 23:54

Я экспортировал файл паркета с помощью parquet.net, который включает столбец продолжительности, содержащий значения, превышающие 24 часа. Я открыл этот инструмент с помощью инструмента для пола, который включен в состав parquet.net, и столбец имеет тип INT32, преобразованный тип TIME_MILIS и логический тип TIME (единица измерения: MILLIS, isAdjustedToUTC: True). В коде .NET столбец был добавлен как новый DataField("duration")
Я пытаюсь проанализировать файл с помощью pandas и pyarrow, используя следующий метод :

Код: Выделить всё

pd.read_parquet('myfile.parquet', engine="pyarrow")

Это приводит к следующей ошибке:

Код: Выделить всё

ValueError: hour must be in 0..23

Есть ли способ указать pyarrow указания для загрузки столбцов как примитивного типа, а не логического типа? У Pandas есть тип pandas.Period, а у Python — тип datetime.timedelta. Parquet.net создает недопустимый тип столбца?

Подробнее здесь: https://stackoverflow.com/questions/787 ... er-than-24

1731185687

Anonymous

Я экспортировал файл паркета с помощью parquet.net, который включает столбец продолжительности, содержащий значения, превышающие 24 часа. Я открыл этот инструмент с помощью инструмента для пола, который включен в состав parquet.net, и столбец имеет тип INT32, преобразованный тип TIME_MILIS и логический тип TIME (единица измерения: MILLIS, isAdjustedToUTC: True). В коде .NET столбец был добавлен как новый DataField("duration")
Я пытаюсь проанализировать файл с помощью pandas и pyarrow, используя следующий метод :
[code]pd.read_parquet('myfile.parquet', engine="pyarrow")
[/code]
Это приводит к следующей ошибке:
[code]ValueError: hour must be in 0..23
[/code]
Есть ли способ указать pyarrow указания для загрузки столбцов как примитивного типа, а не логического типа? У Pandas есть тип pandas.Period, а у Python — тип datetime.timedelta. Parquet.net создает недопустимый тип столбца? 

Подробнее здесь: [url]https://stackoverflow.com/questions/78713012/read-parquet-file-using-pandas-and-pyarrow-fails-for-time-values-larger-than-24[/url]