Переименование CSV-выхода искры в хранилище BLOB-объектов Azure

Переименование CSV-выхода искры в хранилище BLOB-объектов Azure ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Переименование CSV-выхода искры в хранилище BLOB-объектов Azure

Цитата

Сообщение Anonymous » 04 ноя 2025, 20:00

У меня есть настройка блокнота Databricks, которая работает следующим образом:

детали подключения pyspark к учетной записи хранилища BLOB-объектов
Чтение файла через Spark Dataframe
преобразование в Pandas Df
моделирование данных в Pandas Df
преобразование в Spark Df
запись в хранилище BLOB-объектов в одном файле

Моя проблема в том, что вы не можете назвать выходной файл, а мне нужно статическое имя файла CSV.

Можно ли переименовать это в pyspark?

Код: Выделить всё

## Blob Storage account information
storage_account_name = ""
storage_account_access_key = ""

## File location and File type
file_location = "path/.blob.core.windows.net/Databricks_Files/input"
file_location_new = "path/.blob.core.windows.net/Databricks_Files/out"
file_type = "csv"

## Connection string to connect to blob storage
spark.conf.set(
"fs.azure.account.key."+storage_account_name+".blob.core.windows.net",
storage_account_access_key)

Последующий вывод файла после преобразования данных

Код: Выделить всё

dfspark.coalesce(1).write.format('com.databricks.spark.csv') \
.mode('overwrite').option("header", "true").save(file_location_new)

Там, где находится файл, напишите как "part-00000-tid-336943946930983.....csv"

Где целью является создание "Output.csv"

Другой подход, который я рассмотрел, заключался в простом воссоздании этого в Python, но пока не нашел в документации способа вывода файла обратно в хранилище BLOB-объектов.

Я знаю, что метод извлечения из хранилища BLOB-объектов – это .get_blob_to_path через microsoft.docs

Любая помощь здесь будет очень признательна.

Подробнее здесь: https://stackoverflow.com/questions/536 ... ob-storage

1762275610

Anonymous

У меня есть настройка блокнота Databricks, которая работает следующим образом:

[list]
[*]детали подключения pyspark к учетной записи хранилища BLOB-объектов
[*]Чтение файла через Spark Dataframe
[*]преобразование в Pandas Df
[*]моделирование данных в Pandas Df
[*]преобразование в Spark Df
[*]запись в хранилище BLOB-объектов в одном файле
[/list]

Моя проблема в том, что вы не можете назвать выходной файл, а мне нужно статическое имя файла CSV. 

Можно ли переименовать это в pyspark?

[code]## Blob Storage account information
storage_account_name = ""
storage_account_access_key = ""

## File location and File type
file_location = "path/.blob.core.windows.net/Databricks_Files/input"
file_location_new = "path/.blob.core.windows.net/Databricks_Files/out"
file_type = "csv"

## Connection string to connect to blob storage
spark.conf.set(
"fs.azure.account.key."+storage_account_name+".blob.core.windows.net",
storage_account_access_key)
[/code]

Последующий вывод файла после преобразования данных

[code]dfspark.coalesce(1).write.format('com.databricks.spark.csv') \
.mode('overwrite').option("header", "true").save(file_location_new)
[/code]

Там, где находится файл, напишите как [b]"part-00000-tid-336943946930983.....csv"[/b]

Где целью является создание [b]"Output.csv"[/b]

Другой подход, который я рассмотрел, заключался в простом воссоздании этого в Python, но пока не нашел в документации способа вывода файла обратно в хранилище BLOB-объектов.

Я знаю, что метод извлечения из хранилища BLOB-объектов – это .get_blob_to_path через microsoft.docs

Любая помощь здесь будет очень признательна. 

Подробнее здесь: [url]https://stackoverflow.com/questions/53649039/renaming-spark-output-csv-in-azure-blob-storage[/url]