Как применить уникальный фильтр к столбцу разделения файла паркета с помощью wr.s3.read_parquet? ⇐ Python
Как применить уникальный фильтр к столбцу разделения файла паркета с помощью wr.s3.read_parquet?
У меня есть набор данных паркета, хранящийся в s3, и я хочу прочитать его, чтобы применить фильтр к полю раздела, в частности к уникальному. Я пытался сделать следующее, однако уникальную функцию невозможно применить
Вот моя попытка:
query_fecha_dato = "{0}fecha_dato={1}/".format(param.delivery["output_path"], fecha_dato_formato) печать (query_fecha_dato) df_fecha_datos = wr.s3.read_parquet(path=query_fecha_dato,dataset=True,filters=[('fecha_dato','unique',fecha_dato)]) печать(df_fecha_datos.head(5)) Должен отображаться только столбец раздела «fecha_dato», однако отображается следующее:
nro_de_pedido nro_de_negocio ... nrootchex ingest_date 0 2006968078 635922336 ... -1 06.08.2022 1 2006968079 635912195 ... -1 06.08.2022 2 2006968080 635921361 ... -1 06.08.2022 3 2006968081 635922792 ... -1 06.08.2022 4 2006968082 635922368 ... -1 06.08.2022 Я хочу получить только столбец раздела «fecha_dato» без дубликатов
У меня есть набор данных паркета, хранящийся в s3, и я хочу прочитать его, чтобы применить фильтр к полю раздела, в частности к уникальному. Я пытался сделать следующее, однако уникальную функцию невозможно применить
Вот моя попытка:
query_fecha_dato = "{0}fecha_dato={1}/".format(param.delivery["output_path"], fecha_dato_formato) печать (query_fecha_dato) df_fecha_datos = wr.s3.read_parquet(path=query_fecha_dato,dataset=True,filters=[('fecha_dato','unique',fecha_dato)]) печать(df_fecha_datos.head(5)) Должен отображаться только столбец раздела «fecha_dato», однако отображается следующее:
nro_de_pedido nro_de_negocio ... nrootchex ingest_date 0 2006968078 635922336 ... -1 06.08.2022 1 2006968079 635912195 ... -1 06.08.2022 2 2006968080 635921361 ... -1 06.08.2022 3 2006968081 635922792 ... -1 06.08.2022 4 2006968082 635922368 ... -1 06.08.2022 Я хочу получить только столбец раздела «fecha_dato» без дубликатов
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Запись нулевых значений в файл паркета с помощью Parquet.Net создает нечитаемый файл паркета.
Anonymous » » в форуме C# - 0 Ответы
- 69 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Запись нулевых значений в файл паркета с помощью Parquet.Net создает нечитаемый файл паркета.
Anonymous » » в форуме C# - 0 Ответы
- 25 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Потоковая потоковая передача Polars: Parquet Parquet на основе Shift (-1)
Anonymous » » в форуме Python - 0 Ответы
- 8 Просмотры
-
Последнее сообщение Anonymous
-
-
-
Стратегия разделения паркета для одного небольшого файла и оптимизация чтения
Anonymous » » в форуме JAVA - 0 Ответы
- 12 Просмотры
-
Последнее сообщение Anonymous
-