Как бороться с недопустимыми символами в именах столбцов при использовании автозагрузчика блоков данных для CSV? - Цифровое Кемерово

Как бороться с недопустимыми символами в именах столбцов при использовании автозагрузчика блоков данных для CSV? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как бороться с недопустимыми символами в именах столбцов при использовании автозагрузчика блоков данных для CSV?

Цитата

Сообщение Anonymous » 03 дек 2024, 01:16

Я пытаюсь настроить поток автозагрузчика блоков данных для чтения большого количества файлов CSV, однако получаю сообщение об ошибке
Found invalid character(s) among " ,;{}()\n\t=" in the column names of your schema. из-за того, что имена столбцов .csv содержат пробелы. В сообщении предлагается включить сопоставление столбцов, установив для свойства таблицы «delta.columnMapping.mode» значение «name», и отсылает меня на эту страницу документации, однако я не вижу способа реализовать это.
Это код для настройки потока:
stream = spark.readStream.format("cloudFiles")\
.option('cloudFiles.format', 'csv')\
.option('cloudFiles.schemaLocation', delta_loc)\
.option("rescuedDataColumn", "_rescued_data")\
.option('header', 'true')\
.option('delimiter', '|')\
.option('pathGlobFilter', f"*{file_code}*.csv")\
.load(data_path)

Подробнее здесь: https://stackoverflow.com/questions/733 ... ricks-auto

1733177791

Anonymous

Я пытаюсь настроить поток автозагрузчика блоков данных для чтения большого количества файлов CSV, однако получаю сообщение об ошибке
Found invalid character(s) among " ,;{}()\n\t=" in the column names of your schema. из-за того, что имена столбцов .csv содержат пробелы. В сообщении предлагается включить сопоставление столбцов, установив для свойства таблицы «delta.columnMapping.mode» значение «name», и отсылает меня на эту страницу документации, однако я не вижу способа реализовать это.
Это код для настройки потока:
stream = spark.readStream.format("cloudFiles")\
.option('cloudFiles.format', 'csv')\
.option('cloudFiles.schemaLocation', delta_loc)\
.option("rescuedDataColumn", "_rescued_data")\
.option('header', 'true')\
.option('delimiter', '|')\
.option('pathGlobFilter', f"*{file_code}*.csv")\
.load(data_path)
 

Подробнее здесь: [url]https://stackoverflow.com/questions/73319482/how-to-deal-with-invalid-characters-in-column-names-when-using-databricks-auto[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»