Как записать файл паркета в том Databricks? - Цифровое Кемерово

Как записать файл паркета в том Databricks? ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как записать файл паркета в том Databricks?

Цитата

Сообщение Anonymous » 19 ноя 2025, 02:17

Я хочу экспортировать данные из таблиц в моем каталоге Databricks Unity. Я хотел бы преобразовать каждую таблицу в один файл паркета, который я могу скачать. Я думал, что просто записываю таблицу в паркетный файл в моем томе каталога Unity (файлы и прочее я также могу видеть в обозревателе хранилища Microsoft Azure), чтобы можно было легко ее загрузить. Это не сработало. Итак, я попробовал следующие подходы:

Код: Выделить всё

spark.table(my_unity_catalog_table_path).repartition(1).write.format('parquet').mode('overwrite').save('/Volumes/my_volume_name/my_table'). Databricks сообщил мне, что мне не разрешено писать в такой том.
[*]Запишите ту же таблицу в рабочую область, например «/Workspace/Users/myuser/my_table», но это также не сработало, поскольку файл не был создан, хотя я вообще не получил никакой ошибки.
[*]Запишите ту же таблицу в каталог tmp, например «/tmp/my_table», но это также не сработало, поскольку файл не был создан, хотя У меня вообще не возникло никаких ошибок.
[*]Преобразуйте таблицу в Pandas и запишите файл паркета в рабочую область, например spark.table(my_unity_catalog_table_path).toPandas().to_parquet('/Workspace/Users/myuser/my_table.parquet')

, который работал, но не для больших таблиц, поскольку я предполагаю, что рабочая область имеет ограничения на размер файла.

Преобразование таблицу в Pandas и запишите файл паркета в том напрямую, например, spark.table(my_unity_catalog_table_path).toPandas().to_parquet('/Volumes/my_volume_name/my_table.parquet'), но это также не сработало...
Преобразуйте таблицу в Pandas и запишите файл паркета в папку tmp, например spark.table(my_unity_catalog_table_path).toPandas().to_parquet('/tmp/my_table.parquet'), чтобы впоследствии переместить его в том с помощью dbutils.fs.mv или Shutil.move. Ни один из этих вариантов тоже не сработал.

Так как же это сделать?

Подробнее здесь: https://stackoverflow.com/questions/798 ... cks-volume

1763507867

Anonymous

Я хочу экспортировать данные из таблиц в моем каталоге Databricks Unity. Я хотел бы преобразовать каждую таблицу в один файл паркета, который я могу скачать. Я думал, что просто записываю таблицу в паркетный файл в моем томе каталога Unity (файлы и прочее я также могу видеть в обозревателе хранилища Microsoft Azure), чтобы можно было легко ее загрузить. Это не сработало. Итак, я попробовал следующие подходы:
[list]
[*][code]spark.table(my_unity_catalog_table_path).repartition(1).write.format('parquet').mode('overwrite').save('/Volumes/my_volume_name/my_table'). Databricks сообщил мне, что мне не разрешено писать в такой том.
[*]Запишите ту же таблицу в рабочую область, например «/Workspace/Users/myuser/my_table», но это также не сработало, поскольку файл не был создан, хотя я вообще не получил никакой ошибки.
[*]Запишите ту же таблицу в каталог tmp, например «/tmp/my_table», но это также не сработало, поскольку файл не был создан, хотя У меня вообще не возникло никаких ошибок.
[*]Преобразуйте таблицу в Pandas и запишите файл паркета в рабочую область, например spark.table(my_unity_catalog_table_path).toPandas().to_parquet('/Workspace/Users/myuser/my_table.parquet')[/code], который работал, но не для больших таблиц, поскольку я предполагаю, что рабочая область имеет ограничения на размер файла.
[*]Преобразование таблицу в Pandas и запишите файл паркета в том напрямую, например, spark.table(my_unity_catalog_table_path).toPandas().to_parquet('/Volumes/my_volume_name/my_table.parquet'), но это также не сработало...
[*]Преобразуйте таблицу в Pandas и запишите файл паркета в папку tmp, например spark.table(my_unity_catalog_table_path).toPandas().to_parquet('/tmp/my_table.parquet'), чтобы впоследствии переместить его в том с помощью dbutils.fs.mv или Shutil.move. Ни один из этих вариантов тоже не сработал.
[/list]
Так как же это сделать? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79815754/how-to-write-parquet-file-to-databricks-volume[/url]

Ответить

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Вернуться в «Python»