Явное приведение ленивого кадра невозможно из-за несоответствия типов? - Цифровое Кемерово

Явное приведение ленивого кадра невозможно из-за несоответствия типов? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Явное приведение ленивого кадра невозможно из-за несоответствия типов?

Цитата

Сообщение Anonymous » 08 мар 2026, 17:01

Я использую поляры всего несколько месяцев (исходя из pandas), так что простите меня, если я что-то неправильно интерпретирую

Я хочу прочитать множество файлов паркета, объединить их в один фрейм данных и затем записать это на диск. Поскольку в некоторых файлах есть столбцы неправильного типа, я пытаюсь выполнить явное приведение

Код: Выделить всё

df = pl.scan_parquet('../output/extraction/part_*.parquet')

schema = {
'station_id': pl.String,
'datetime_utc': pl.Datetime(time_unit='ns', time_zone='UTC'),
'rain_rate': pl.Float64,
}

df = df.with_columns([
pl.col(name).cast(dtype, strict=False) for name, dtype in schema.items()
])

df.sink_parquet('../output/extraction/merged.parquet')

Но я получаю SchemaError: несоответствие типа данных для столбца Rain_rate: ожидаемо: двоичный, найдено: f64.
Эта версия работает без проблем

Код: Выделить всё

dfs = []
for file in glob('../output/extraction/part_*.parquet'):
df = pl.read_parquet(file)
df = df.with_columns([
pl.col(name).cast(dtype, strict=False) for name, dtype in schema.items()
])
dfs.append(df)

df = pl.concat(dfs)
df.write_parquet('../output/extraction/merged.parquet')

Я отчасти понимаю эту ошибку, и энергичная версия работает для меня, поскольку у меня не так много файлов, но это может стать проблемой, если я работаю с большим объемом данных.
Нет ли способа сделать то же самое с отложенными кадрами данных?
>

Подробнее здесь: https://stackoverflow.com/questions/793 ... e-mismatch

1772978499

Anonymous

Я использую поляры всего несколько месяцев (исходя из pandas), так что простите меня, если я что-то неправильно интерпретирую :)
Я хочу прочитать множество файлов паркета, объединить их в один фрейм данных и затем записать это на диск. Поскольку в некоторых файлах есть столбцы неправильного типа, я пытаюсь выполнить явное приведение
[code]df = pl.scan_parquet('../output/extraction/part_*.parquet')

schema = {
'station_id': pl.String,
'datetime_utc': pl.Datetime(time_unit='ns', time_zone='UTC'),
'rain_rate': pl.Float64,
}

df = df.with_columns([
pl.col(name).cast(dtype, strict=False) for name, dtype in schema.items()
])

df.sink_parquet('../output/extraction/merged.parquet')
[/code]
Но я получаю SchemaError: несоответствие типа данных для столбца Rain_rate: ожидаемо: двоичный, найдено: f64.
Эта версия работает без проблем
[code]dfs = []
for file in glob('../output/extraction/part_*.parquet'):
df = pl.read_parquet(file)
df = df.with_columns([
pl.col(name).cast(dtype, strict=False) for name, dtype in schema.items()
])
dfs.append(df)

df = pl.concat(dfs)
df.write_parquet('../output/extraction/merged.parquet')
[/code]
Я отчасти понимаю эту ошибку, и энергичная версия работает для меня, поскольку у меня не так много файлов, но это может стать проблемой, если я работаю с большим объемом данных.
Нет ли способа сделать то же самое с отложенными кадрами данных?
> 

Подробнее здесь: [url]https://stackoverflow.com/questions/79338759/explicit-cast-of-a-lazy-frame-not-possible-with-type-mismatch[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»