Как настроить размер выходного файла с помощью pyspark ETL?Python

Программы на Python
Ответить
Anonymous
 Как настроить размер выходного файла с помощью pyspark ETL?

Сообщение Anonymous »

У меня есть код ETL, я читаю данные CSV, конвертирую их в фреймы данных, объединяю/объединяю фреймы данных после определенных преобразований данных с помощью карты с использованием pyspark RDD (устойчивый распределенный набор данных). В конце, когда я сохраняю результат как выходной файл, он сохраняет выходные данные в несколько файлов. Есть ли способ настроить количество файлов, которые он может выводить, или указать размер каждого файла? чтобы я мог напечатать определенное количество строк/строк в каждом файле?
import pandas as pd

# Read the CSV files
df_one = pd.read_csv('one.csv')
df_two = pd.read_csv('two.csv')

# Merge on the truncated ID
df_combined = pd.merge(df_one , df_two , how='inner', left_on='truncated_id', right_on='id')

...

merged_rdd = merged.rdd.map(some_function)

merged_rdd.saveAsTextFile('/output.json')



Подробнее здесь: https://stackoverflow.com/questions/791 ... yspark-etl
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»