Apache Nifi: невозможно объединить несколько CSV-файлов в один файл PARQUET с помощью процессора ExecuteStreamCommand

Apache Nifi: невозможно объединить несколько CSV-файлов в один файл PARQUET с помощью процессора ExecuteStreamCommand ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Apache Nifi: невозможно объединить несколько CSV-файлов в один файл PARQUET с помощью процессора ExecuteStreamCommand

Цитата

Сообщение Anonymous » 01 дек 2024, 12:43

Я пытаюсь объединить несколько CSV-файлов, поступающих из восходящего потока в виде файлов потока аналогичного типа (одна и та же схема), в один формат файла PARQUET. Ниже приведен поток моей группы процессоров. Где в верхнем ExecuteStreamCommand я переименовываю имена столбцов, чтобы гарантировать отсутствие специальных символов в именах столбцов, в то время как в нисходящем процессоре ExecuteStreamCommand фактически пытается объединиться в один формат паркета, но он не объединяется в один и выходит такое же количество CSV-файлов (которые находятся в отдельных файлах паркета).

Ниже приведен код, который я использую для объединения нескольких CSV-файлов в один файл паркета.

Код: Выделить всё

import sys
import pandas as pd
import io
from pyarrow import parquet as pq
import pyarrow as pa

# Initialize an empty DataFrame to hold all CSV data
merged_df = pd.DataFrame()

# Read CSV data from standard input (incoming flow file content)
input_data = sys.stdin.read().strip()

# Check if the input data is empty
if not input_data:
print("Error: No data received from stdin")
sys.exit(1)

# Use StringIO to read the CSV from stdin
csv_content = io.StringIO(input_data)

# Read and append CSV content to merged_df
try:
# Read CSV into DataFrame
df = pd.read_csv(csv_content)

# If merged_df is empty, initialize it with the same columns as df
if merged_df.empty:
merged_df = df
else:
# Align columns before concatenating (this handles schema inconsistencies)
merged_df = pd.concat([merged_df, df], ignore_index=True, sort=False)

except pd.errors.EmptyDataError:
print("Error: No columns to parse from CSV data.")
sys.exit(1)

# After reading all CSV files, convert the merged DataFrame to a Parquet table
table = pa.Table.from_pandas(merged_df)

# Write the Parquet table to stdout (which NiFi will handle)
pq.write_table(table, sys.stdout.buffer, compression='snappy')  # Adjust compression if needed

Кто-нибудь может предсказать, где я делаю это неправильно? Почему он не может объединиться в один паркет, а в несколько файлов паркета. Он также не меняет расширение выходных файлов, таких как .parquet.

Подробнее здесь: https://stackoverflow.com/questions/792 ... using-exec

1733046230

Anonymous

Я пытаюсь объединить несколько CSV-файлов, поступающих из восходящего потока в виде файлов потока аналогичного типа (одна и та же схема), в один формат файла PARQUET. Ниже приведен поток моей группы процессоров. Где в верхнем ExecuteStreamCommand я переименовываю имена столбцов, чтобы гарантировать отсутствие специальных символов в именах столбцов, в то время как в нисходящем процессоре ExecuteStreamCommand фактически пытается объединиться в один формат паркета, но он не объединяется в один и выходит такое же количество CSV-файлов (которые находятся в отдельных файлах паркета).
[img]https://i.sstatic.net/GUfbw7QE.png[/img]

Ниже приведен код, который я использую для объединения нескольких CSV-файлов в один файл паркета.
[code]import sys
import pandas as pd
import io
from pyarrow import parquet as pq
import pyarrow as pa

# Initialize an empty DataFrame to hold all CSV data
merged_df = pd.DataFrame()

# Read CSV data from standard input (incoming flow file content)
input_data = sys.stdin.read().strip()

# Check if the input data is empty
if not input_data:
print("Error: No data received from stdin")
sys.exit(1)

# Use StringIO to read the CSV from stdin
csv_content = io.StringIO(input_data)

# Read and append CSV content to merged_df
try:
# Read CSV into DataFrame
df = pd.read_csv(csv_content)

# If merged_df is empty, initialize it with the same columns as df
if merged_df.empty:
merged_df = df
else:
# Align columns before concatenating (this handles schema inconsistencies)
merged_df = pd.concat([merged_df, df], ignore_index=True, sort=False)

except pd.errors.EmptyDataError:
print("Error: No columns to parse from CSV data.")
sys.exit(1)

# After reading all CSV files, convert the merged DataFrame to a Parquet table
table = pa.Table.from_pandas(merged_df)

# Write the Parquet table to stdout (which NiFi will handle)
pq.write_table(table, sys.stdout.buffer, compression='snappy')  # Adjust compression if needed
[/code]
Кто-нибудь может предсказать, где я делаю это неправильно? Почему он не может объединиться в один паркет, а в несколько файлов паркета. Он также не меняет расширение выходных файлов, таких как .parquet. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79241286/apache-nifi-unable-to-merge-multiple-csvs-into-a-single-parquet-file-using-exec[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Apache Nifi (ExecuteStreamCommand): исполняемая команда python3 завершилась с ошибкой:

Последнее сообщение Anonymous « 25 ноя 2024, 06:17
Добавлено в форуме Python

Anonymous » 25 ноя 2024, 06:17 » в форуме Python

Я пытаюсь запустить следующий скрипт в процессореexecutestreamcommand, который будет считывать данные из процессора listfile и fetchfile, а затем я пытаюсь объединить содержимое файлов Excel в формате паркета в следующем скрипте, но передача python3...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
25 ноя 2024, 06:17
Apache Nifi (ExecuteStreamCommand): исполняемая команда python3 завершилась с ошибкой:

Последнее сообщение Anonymous « 25 ноя 2024, 18:04
Добавлено в форуме Python

Anonymous » 25 ноя 2024, 18:04 » в форуме Python

Я пытаюсь запустить следующий скрипт в процессореexecutestreamcommand, который будет считывать данные из процессоров listfile и fetchfile. Затем я пытаюсь объединить содержимое файлов Excel в формате паркета в следующем скрипте, но Python3...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
25 ноя 2024, 18:04
Запустите процессор NIFI, используя Python SDK Apache Nifi.

Последнее сообщение Гость « 22 сен 2023, 21:33
Добавлено в форуме Python

Гость » 22 сен 2023, 21:33 » в форуме Python

У меня есть код Python, который пытается пройти аутентификацию на моем сервере Nifi, используя имя пользователя и пароль, чтобы запустить внутри него процессор. Ниже мой код:

из фляги импорта Flask импорт нипьяпи запросы на импорт приложение =...

0 Ответы

67 Просмотры

Последнее сообщение Гость
22 сен 2023, 21:33
Как проверить/игнорировать необязательное значение при его проверке с помощью процессора «Проверить CSV» в Apache NiFi?

Последнее сообщение Anonymous « 06 мар 2024, 12:49
Добавлено в форуме Apache

Anonymous » 06 мар 2024, 12:49 » в форуме Apache

I'm new to Apache Nifi Community and I got stuck at one point - please help me for the below problem :

In Validate CSV processor I'm giving below schema( schema_used ) to validate the CSV input. But, processor is showing error( err_screenshot )....

0 Ответы

100 Просмотры

Последнее сообщение Anonymous
06 мар 2024, 12:49
Чтение файлов Parquet с использованием parquet.net занимает больше времени, чем Pyarrow (Python)

Последнее сообщение Anonymous « 29 май 2025, 13:59
Добавлено в форуме Python

Anonymous » 29 май 2025, 13:59 » в форуме Python

Обычно, когда дело доходит до операций с файлами паркета, пакет Parquet.net занимает меньше/равное время по сравнению с Python. Но мой первоначальный набор экспериментов не соответствует этому. Чтение 5 миллионов данных в Parquet Python занимает...

0 Ответы

5 Просмотры

Последнее сообщение Anonymous
29 май 2025, 13:59

Вернуться в «Python»