Как настроить размер выходного файла с помощью pyspark ETL? - Цифровое Кемерово

Как настроить размер выходного файла с помощью pyspark ETL? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как настроить размер выходного файла с помощью pyspark ETL?

Цитата

Сообщение Anonymous » 10 ноя 2024, 16:45

У меня есть код ETL, я читаю данные CSV, конвертирую их в фреймы данных, объединяю/объединяю фреймы данных после определенных преобразований данных с помощью карты с использованием pyspark RDD (устойчивый распределенный набор данных). В конце, когда я сохраняю результат как выходной файл, он сохраняет выходные данные в несколько файлов. Есть ли способ настроить количество файлов, которые он может выводить, или указать размер каждого файла? чтобы я мог напечатать определенное количество строк/строк в каждом файле?
import pandas as pd

# Read the CSV files
df_one = pd.read_csv('one.csv')
df_two = pd.read_csv('two.csv')

# Merge on the truncated ID
df_combined = pd.merge(df_one , df_two , how='inner', left_on='truncated_id', right_on='id')

...

merged_rdd = merged.rdd.map(some_function)

merged_rdd.saveAsTextFile('/output.json')

Подробнее здесь: https://stackoverflow.com/questions/791 ... yspark-etl

1731246303

Anonymous

У меня есть код ETL, я читаю данные CSV, конвертирую их в фреймы данных, объединяю/объединяю фреймы данных после определенных преобразований данных с помощью карты с использованием pyspark RDD (устойчивый распределенный набор данных). В конце, когда я сохраняю результат как выходной файл, он сохраняет выходные данные в несколько файлов. Есть ли способ настроить количество файлов, которые он может выводить, или указать размер каждого файла? чтобы я мог напечатать определенное количество строк/строк в каждом файле?
import pandas as pd

# Read the CSV files
df_one = pd.read_csv('one.csv')
df_two = pd.read_csv('two.csv')

# Merge on the truncated ID
df_combined = pd.merge(df_one , df_two , how='inner', left_on='truncated_id', right_on='id')

...

merged_rdd = merged.rdd.map(some_function)

merged_rdd.saveAsTextFile('/output.json')

 

Подробнее здесь: [url]https://stackoverflow.com/questions/79173333/how-to-configure-output-file-size-with-pyspark-etl[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»