Явное приведение ленивого кадра невозможно из-за несоответствия типов? - Цифровое Кемерово

Явное приведение ленивого кадра невозможно из-за несоответствия типов? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Явное приведение ленивого кадра невозможно из-за несоответствия типов?

Цитата

Сообщение Anonymous » 13 янв 2025, 14:24

Я использую поляры всего несколько месяцев (исходя из pandas), так что простите меня, если я неправильно интерпретирую

Я хочу прочитать много файлов паркета, объединить их в один фрейм данных а затем записать это на диск. Поскольку в некоторых файлах есть столбцы неправильного типа, я пытаюсь выполнить явное приведение

Код: Выделить всё

df = pl.scan_parquet('../output/extraction/part_*.parquet')

schema = {
'station_id': pl.String,
'datetime_utc': pl.Datetime(time_unit='ns', time_zone='UTC'),
'rain_rate': pl.Float64,
}

df = df.with_columns([
pl.col(name).cast(dtype, strict=False) for name, dtype in schema.items()
])

df.sink_parquet('../output/extraction/merged.parquet')

Но я получаю SchemaError: несоответствие типа данных для столбца Rain_rate: ожидаемо: двоичный, найдено: f64.
нетерпеливая версия работает без проблем

Код: Выделить всё

dfs = []
for file in glob('../output/extraction/part_*.parquet'):
df = pl.read_parquet(file)
df = df.with_columns([
pl.col(name).cast(dtype, strict=False) for name, dtype in schema.items()
])
dfs.append(df)

df = pl.concat(dfs)
df.write_parquet('../output/extraction/merged.parquet')

Я отчасти понимаю ошибку, и мне подходит версия с нетерпением, поскольку у меня не так много файлов, но это может стать проблемой, если я работаю с большим объемом данных .
Нет ли способа сделать то же самое с ленивыми кадрами данных?

Подробнее здесь: https://stackoverflow.com/questions/793 ... e-mismatch

Реклама

1736767459

Anonymous

Я использую поляры всего несколько месяцев (исходя из pandas), так что простите меня, если я неправильно интерпретирую :)
Я хочу прочитать много файлов паркета, объединить их в один фрейм данных а затем записать это на диск. Поскольку в некоторых файлах есть столбцы неправильного типа, я пытаюсь выполнить явное приведение
[code]df = pl.scan_parquet('../output/extraction/part_*.parquet')

schema = {
'station_id': pl.String,
'datetime_utc': pl.Datetime(time_unit='ns', time_zone='UTC'),
'rain_rate': pl.Float64,
}

df = df.with_columns([
pl.col(name).cast(dtype, strict=False) for name, dtype in schema.items()
])

df.sink_parquet('../output/extraction/merged.parquet')
[/code]
Но я получаю SchemaError: несоответствие типа данных для столбца Rain_rate: ожидаемо: двоичный, найдено: f64.
нетерпеливая версия работает без проблем
[code]dfs = []
for file in glob('../output/extraction/part_*.parquet'):
df = pl.read_parquet(file)
df = df.with_columns([
pl.col(name).cast(dtype, strict=False) for name, dtype in schema.items()
])
dfs.append(df)

df = pl.concat(dfs)
df.write_parquet('../output/extraction/merged.parquet')
[/code]
Я отчасти понимаю ошибку, и мне подходит версия с нетерпением, поскольку у меня не так много файлов, но это может стать проблемой, если я работаю с большим объемом данных .
Нет ли способа сделать то же самое с ленивыми кадрами данных?
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79338759/explicit-cast-of-a-lazy-frame-not-possible-with-type-mismatch[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Явное приведение ленивого кадра невозможно из-за несоответствия типов?

Последнее сообщение Anonymous « 15 янв 2025, 06:10
Добавлено в форуме Python

Anonymous » 15 янв 2025, 06:10 » в форуме Python

Я использую поляры всего несколько месяцев (исходя из pandas), так что простите меня, если я неправильно интерпретирую :)
Я хочу прочитать много файлов паркета, объединить их в один фрейм данных а затем записать это на диск. Поскольку в некоторых...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
15 янв 2025, 06:10
Когда использовать явное глобальное пространство имен или явное пространство имен std

Последнее сообщение Anonymous « 28 июн 2024, 22:41
Добавлено в форуме C++

Anonymous » 28 июн 2024, 22:41 » в форуме C++

Я извлекаю нужный раздел библиотеки, и эта библиотека имеет свои собственные идентификаторы, которые обычно используются в стандартных заголовках C++. Например, у него есть свои собственные atoi, itoa, uint32_t и т. д. в пространстве имен...

0 Ответы

38 Просмотры

Последнее сообщение Anonymous
28 июн 2024, 22:41
Ни один оператор не соответствует данному имени и типу(ам) аргумента. Возможно, вам придется добавить явное приведение т

Последнее сообщение Anonymous « 08 июл 2024, 14:14
Добавлено в форуме JAVA

Anonymous » 08 июл 2024, 14:14 » в форуме JAVA

Я пытаюсь отредактировать таблицу в Postgresql, используя JPA, в Glassfish, используя EclipseLink. Когда я вставляю объект, он работает нормально. Но когда я пытаюсь отредактировать или удалить один и тот же объект, происходит сбой со следующей...

0 Ответы

27 Просмотры

Последнее сообщение Anonymous
08 июл 2024, 14:14
Поляры Python: количество строк ленивого кадра не равно wc -l

Последнее сообщение Anonymous « 02 окт 2024, 13:39
Добавлено в форуме Python

Anonymous » 02 окт 2024, 13:39 » в форуме Python

Я экспериментировал с полярами, и одна из ключевых функций, которая меня заинтересовала, — это операции больше, чем ОЗУ.
Я загрузил несколько файлов в поиграйте ЗДЕСЬ. На сайте: Первая строка каждого файла — заголовок; 1 строка соответствует 1...

0 Ответы

14 Просмотры

Последнее сообщение Anonymous
02 окт 2024, 13:39
Как одновременно вычислить несколько сводных статистических данных по всем столбцам с использованием ленивого кадра Pola

Последнее сообщение Anonymous « 09 окт 2024, 12:44
Добавлено в форуме Python

Anonymous » 09 окт 2024, 12:44 » в форуме Python

Предположим, у меня есть следующие данные:
df = pl.from_repr(
┌─────┬─────┬─────┐
│ a ┆ b ┆ c │
│ --- ┆ --- ┆ --- │
│ i64 ┆ i64 ┆ i64 │
╞═════╪═════╪═════╡
│ 1 ┆ 2 ┆ 3 │
│ 4 ┆ 5 ┆ 6 │
│ 7 ┆ 8 ┆ 9 │
└─────┴─────┴─────┘
).lazy()

Для каждого столбца...

0 Ответы

18 Просмотры

Последнее сообщение Anonymous
09 окт 2024, 12:44

Вернуться в «Python»

Programmiererforum