Как прочитать часть набора данных паркета в пандах? - Цифровое Кемерово

Как прочитать часть набора данных паркета в пандах? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как прочитать часть набора данных паркета в пандах?

Цитата

Сообщение Anonymous » 18 ноя 2024, 10:51

У меня огромный фрейм данных, и я хочу разделить его на небольшие файлы для повышения производительности. Вот пример кода для написания. НО я не могу просто прочитать из него небольшие кусочки, не загружая весь фрейм данных в память.

Код: Выделить всё

import pandas as pd
import os

# Create a sample DataFrame with daily frequency
data = {
"timestamp": pd.date_range(start="2023-01-01", periods=1000, freq="D"),
"value": range(100)
}
df = pd.DataFrame(data)

# Add a column for year (to use as a partition key)
df["year"] = df["timestamp"].dt.year
df["month"] = df["timestamp"].dt.month

# Use the join method to expand the DataFrame (Cartesian product with a multiplier)
multiplier = pd.DataFrame({"replica": range(100)})  # Create a multiplier DataFrame
expanded_df = df.join(multiplier, how="cross")  # Cartesian product using cross join

# Define the output directory
output_dir = "output_parquet"

# Save the expanded DataFrame to Parquet with year-based partitioning
expanded_df.to_parquet(
output_dir,
partition_cols=["year", "month"],  # Specify the partition column
)

Как лучше всего прочитать набор данных, если мне нужны данные только с 01 декабря 2023 по 31 января 2024?

Подробнее здесь: https://stackoverflow.com/questions/791 ... nto-pandas

1731916280

Anonymous

У меня огромный фрейм данных, и я хочу разделить его на небольшие файлы для повышения производительности. Вот пример кода для написания. НО я не могу просто прочитать из него небольшие кусочки, не загружая весь фрейм данных в память.
[code]import pandas as pd
import os

# Create a sample DataFrame with daily frequency
data = {
"timestamp": pd.date_range(start="2023-01-01", periods=1000, freq="D"),
"value": range(100)
}
df = pd.DataFrame(data)

# Add a column for year (to use as a partition key)
df["year"] = df["timestamp"].dt.year
df["month"] = df["timestamp"].dt.month

# Use the join method to expand the DataFrame (Cartesian product with a multiplier)
multiplier = pd.DataFrame({"replica": range(100)})  # Create a multiplier DataFrame
expanded_df = df.join(multiplier, how="cross")  # Cartesian product using cross join

# Define the output directory
output_dir = "output_parquet"

# Save the expanded DataFrame to Parquet with year-based partitioning
expanded_df.to_parquet(
output_dir,
partition_cols=["year", "month"],  # Specify the partition column
)
[/code]
Как лучше всего прочитать набор данных, если мне нужны данные только с 01 декабря 2023 по 31 января 2024?
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79199034/how-to-read-a-part-of-parquet-dataset-into-pandas[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»