Обработка специальных символов и escape-последовательностей в CSV с помощью команды Spark и PostgreSQL COPY

Обработка специальных символов и escape-последовательностей в CSV с помощью команды Spark и PostgreSQL COPY ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Обработка специальных символов и escape-последовательностей в CSV с помощью команды Spark и PostgreSQL COPY

Цитата

Сообщение Anonymous » 11 окт 2024, 12:25

Я использую PySpark для перераспределения DataFrame и записи его в файл CSV, который позже загружаю в PostgreSQL с помощью команды COPY. Однако при выполнении команды COPY я столкнулся со следующей ошибкой:
psycopg2.errors.BadCopyFileFormat: extra data after last expected column

Я подозреваю, что эта ошибка вызвана специальными символами в моих данных, например двойными кавычками ("), запятые (,), косая черта (/) и escape-символы. Вот упрощенная версия моего кода:
df_ops.df.repartition(num_partitions).write.mode("overwrite").format("csv").option("header", "false").save(file_path)

with connection.cursor() as cursor:
with open(file_path, "r") as f:
query = f"COPY {table_name} ({column_string}) FROM STDIN WITH (FORMAT CSV, HEADER FALSE, DELIMITER ',', NULL '')"
cursor.copy_expert(query, f)
connection.commit()

Пример данных:
Исходная строка:
2024-07-18 12:09:28,2012420012080452979,60,V2,"Suspected fraud, decline / Transactions declined based on Risk Score",1

После преобразования (CSV):
2024-07-18 12:09:28,2012420012080452979,60,V2,"\"Suspected fraud, decline / Transactions declined based on Risk Score\"",1

Проблема:

Мои данные содержат смесь специальных символов, запятых и двойных кавычек.
Команда COPY в PostgreSQL выдает ошибку при обработке CSV из-за этих специальных символов.

Вопрос:
Как я могу гарантировать, что вывод CSV из Spark правильно отформатирован для обработки всех специальных символов (двойных кавычек, запятых, косой черты и т. д.) при использовании команды PostgreSQL COPY ? Должен ли я настроить параметры записи Spark или оператор PostgreSQL COPY, чтобы справиться с этим?
Любые рекомендации о том, как обрабатывать эти escape-последовательности и обеспечивать обработку команд COPY были бы очень признательны за правильность данных.
Обновление:
Я добавил опцию цитирования, которая решила проблему; однако меня беспокоят возможные побочные эффекты.
df_ops.df.repartition(num_partitions).write.mode("overwrite").format("csv").option("header", "false").option("quote", "\u001C").save(file_path)
query = f"COPY {table_name} ({column_string}) FROM STDIN WITH (FORMAT CSV, HEADER FALSE, DELIMITER ',', NULL '', QUOTE '\u001C')"

Подробнее здесь: https://stackoverflow.com/questions/790 ... -postgresq

1728638731

Anonymous

Я использую PySpark для перераспределения DataFrame и записи его в файл CSV, который позже загружаю в PostgreSQL с помощью команды COPY. Однако при выполнении команды COPY я столкнулся со следующей ошибкой:
psycopg2.errors.BadCopyFileFormat: extra data after last expected column

Я подозреваю, что эта ошибка вызвана специальными символами в моих данных, например двойными кавычками ("), запятые (,), косая черта (/) и escape-символы. Вот упрощенная версия моего кода:
df_ops.df.repartition(num_partitions).write.mode("overwrite").format("csv").option("header", "false").save(file_path)

with connection.cursor() as cursor:
with open(file_path, "r") as f:
query = f"COPY {table_name} ({column_string}) FROM STDIN WITH (FORMAT CSV, HEADER FALSE, DELIMITER ',', NULL '')"
cursor.copy_expert(query, f)
connection.commit()

Пример данных:
[b]Исходная строка[/b]:
2024-07-18 12:09:28,2012420012080452979,60,V2,"Suspected fraud, decline / Transactions declined based on Risk Score",1

[b]После преобразования (CSV)[/b]:
2024-07-18 12:09:28,2012420012080452979,60,V2,"\"Suspected fraud, decline / Transactions declined based on Risk Score\"",1

Проблема:
[list]
[*]Мои данные содержат смесь специальных символов, запятых и двойных кавычек.
[*]Команда COPY в PostgreSQL выдает ошибку при обработке CSV из-за этих специальных символов.
[/list]
Вопрос: 
Как я могу гарантировать, что вывод CSV из Spark правильно отформатирован для обработки всех специальных символов (двойных кавычек, запятых, косой черты и т. д.) при использовании команды PostgreSQL COPY ? Должен ли я настроить параметры записи Spark или оператор PostgreSQL COPY, чтобы справиться с этим?
Любые рекомендации о том, как обрабатывать эти escape-последовательности и обеспечивать обработку команд COPY были бы очень признательны за правильность данных.
Обновление:
Я добавил опцию цитирования, которая решила проблему; однако меня беспокоят возможные побочные эффекты.
df_ops.df.repartition(num_partitions).write.mode("overwrite").format("csv").option("header", "false").option("quote", "\u001C").save(file_path)
query = f"COPY {table_name} ({column_string}) FROM STDIN WITH (FORMAT CSV, HEADER FALSE, DELIMITER ',', NULL '', QUOTE '\u001C')"
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79073786/handling-special-characters-and-escape-sequences-in-csv-with-spark-and-postgresq[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Обработка специальных символов и escape-последовательностей в CSV с помощью команды Spark и PostgreSQL COPY

Последнее сообщение Anonymous « 10 окт 2024, 12:50
Добавлено в форуме Python

Anonymous » 10 окт 2024, 12:50 » в форуме Python

Я использую PySpark для перераспределения DataFrame и записи его в файл CSV, который позже загружаю в PostgreSQL с помощью команды COPY. Однако при выполнении команды COPY я столкнулся со следующей ошибкой:
psycopg2.errors.BadCopyFileFormat: extra...

0 Ответы

31 Просмотры

Последнее сообщение Anonymous
10 окт 2024, 12:50
Изменилось ли поведение конструктора Copy Copy Copy для копирования инициализации с помощью вызова функции?

Последнее сообщение Anonymous « 19 фев 2025, 08:31
Добавлено в форуме C++

Anonymous » 19 фев 2025, 08:31 » в форуме C++

Как вы можете видеть в прилагаемом скриншоте, описан следующий код, чтобы вызвать конструктор копирования, когда OBJ1 копируется с возвращающим значением из вызова MyClass :: createObject . Однако выход показывает, что конструктор по умолчанию...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
19 фев 2025, 08:31
Изменилось ли поведение конструктора Copy Copy Copy для копирования инициализации с помощью вызова функции? [закрыто]

Последнее сообщение Anonymous « 20 фев 2025, 00:41
Добавлено в форуме C++

Anonymous » 20 фев 2025, 00:41 » в форуме C++

Следующий код показывает, что конструктор по умолчанию (а не конструктор копии) вызывается, когда obj1 инициализируется копированием с возвращающим значением из вызова в MyClass :: createObject . Что я заметил, так это то, что в таком случае адрес...

0 Ответы

25 Просмотры

Последнее сообщение Anonymous
20 фев 2025, 00:41
Обработка escape-последовательностей в строке в Python

Последнее сообщение Anonymous « 14 ноя 2024, 06:45
Добавлено в форуме Python

Anonymous » 14 ноя 2024, 06:45 » в форуме Python

Иногда, когда я получаю данные от файла или пользователя, я получаю строку с escape-последовательностями. Я хотел бы обрабатывать escape-последовательности так же, как Python обрабатывает escape-последовательности в строковых литералах.

Например,...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
14 ноя 2024, 06:45
Оболочка Spark: spark.executor.extraJavaOptions не разрешено устанавливать параметры Spark.

Последнее сообщение Anonymous « 24 сен 2024, 08:55
Добавлено в форуме Python

Anonymous » 24 сен 2024, 08:55 » в форуме Python

Я создал эту программу Spark Shell, но при ее запуске возникла ошибка:
Windows PowerShell
Copyright (C) Microsoft Corporation. All rights reserved.

Install the latest PowerShell for new features and improvements!

PS...

0 Ответы

56 Просмотры

Последнее сообщение Anonymous
24 сен 2024, 08:55

Вернуться в «Python»