Я хочу экспортировать данные из таблиц в моем каталоге Databricks Unity. Я хотел бы преобразовать каждую таблицу в один файл паркета, который я могу скачать. Я думал, что просто записываю таблицу в паркетный файл в моем томе каталога Unity (файлы и прочее я также могу видеть в обозревателе хранилища Microsoft Azure), чтобы можно было легко ее загрузить. Это не сработало. Итак, я попробовал следующие подходы:
spark.table(my_unity_catalog_table_path).repartition(1).write.format('parquet').mode('overwrite').save('/Volumes/my_volume_name/my_table'). Databricks сообщил мне, что мне не разрешено писать в такой том.
[*]Запишите ту же таблицу в рабочую область, например «/Workspace/Users/myuser/my_table», но это также не сработало, поскольку файл не был создан, хотя я вообще не получил никакой ошибки.
[*]Запишите ту же таблицу в каталог tmp, например «/tmp/my_table», но это также не сработало, поскольку файл не был создан, хотя У меня вообще не возникло никаких ошибок.
[*]Преобразуйте таблицу в Pandas и запишите файл паркета в рабочую область, например spark.table(my_unity_catalog_table_path).toPandas().to_parquet('/Workspace/Users/myuser/my_table.parquet')
, который работал, но не для больших таблиц, поскольку я предполагаю, что рабочая область имеет ограничения на размер файла.
Преобразование таблицу в Pandas и запишите файл паркета в том напрямую, например, spark.table(my_unity_catalog_table_path).toPandas().to_parquet('/Volumes/my_volume_name/my_table.parquet'), но это также не сработало...
Преобразуйте таблицу в Pandas и запишите файл паркета в папку tmp, например spark.table(my_unity_catalog_table_path).toPandas().to_parquet('/tmp/my_table.parquet'), чтобы впоследствии переместить его в том с помощью dbutils.fs.mv или Shutil.move. Ни один из этих вариантов тоже не сработал.
Я хочу экспортировать данные из таблиц в моем каталоге Databricks Unity. Я хотел бы преобразовать каждую таблицу в один файл паркета, который я могу скачать. Я думал, что просто записываю таблицу в паркетный файл в моем томе каталога Unity (файлы и прочее я также могу видеть в обозревателе хранилища Microsoft Azure), чтобы можно было легко ее загрузить. Это не сработало. Итак, я попробовал следующие подходы: [list] [*][code]spark.table(my_unity_catalog_table_path).repartition(1).write.format('parquet').mode('overwrite').save('/Volumes/my_volume_name/my_table'). Databricks сообщил мне, что мне не разрешено писать в такой том. [*]Запишите ту же таблицу в рабочую область, например «/Workspace/Users/myuser/my_table», но это также не сработало, поскольку файл не был создан, хотя я вообще не получил никакой ошибки. [*]Запишите ту же таблицу в каталог tmp, например «/tmp/my_table», но это также не сработало, поскольку файл не был создан, хотя У меня вообще не возникло никаких ошибок. [*]Преобразуйте таблицу в Pandas и запишите файл паркета в рабочую область, например spark.table(my_unity_catalog_table_path).toPandas().to_parquet('/Workspace/Users/myuser/my_table.parquet')[/code], который работал, но не для больших таблиц, поскольку я предполагаю, что рабочая область имеет ограничения на размер файла. [*]Преобразование таблицу в Pandas и запишите файл паркета в том напрямую, например, spark.table(my_unity_catalog_table_path).toPandas().to_parquet('/Volumes/my_volume_name/my_table.parquet'), но это также не сработало... [*]Преобразуйте таблицу в Pandas и запишите файл паркета в папку tmp, например spark.table(my_unity_catalog_table_path).toPandas().to_parquet('/tmp/my_table.parquet'), чтобы впоследствии переместить его в том с помощью dbutils.fs.mv или Shutil.move. Ни один из этих вариантов тоже не сработал. [/list] Так как же это сделать?