Как прочитать файл, хранящийся в adls gen 2, с помощью панд?Python

Программы на Python
Ответить Пред. темаСлед. тема
Anonymous
 Как прочитать файл, хранящийся в adls gen 2, с помощью панд?

Сообщение Anonymous »

Я пытаюсь прочитать файл паркета через pandas в блокноте databricks. У кластера есть разрешение на доступ к adls.

Код: Выделить всё

import pandas as pd
pdf = pd.read_parquet("abfss://abc.parquet")
Но pandas не может его прочитать и выдает следующую ошибку.

Код: Выделить всё

ValueError                                Traceback (most recent call last)
 in 
1 import pandas as pd
2 parquet_file = 'abfss://abc.parquet'
----> 3 pd.read_parquet(parquet_file)

/databricks/python/lib/python3.8/site-packages/pandas/io/parquet.py in read_parquet(path, engine, columns, use_nullable_dtypes, **kwargs)
457     """
458     impl = get_engine(engine)
--> 459     return impl.read(
460         path, columns=columns, use_nullable_dtypes=use_nullable_dtypes, **kwargs
461     )

/databricks/python/lib/python3.8/site-packages/pandas/io/parquet.py in read(self, path, columns, use_nullable_dtypes, storage_options, **kwargs)
212                 )
213
--> 214         path_or_handle, handles, kwargs["filesystem"] = _get_path_or_handle(
215             path,
216             kwargs.pop("filesystem", None),

/databricks/python/lib/python3.8/site-packages/pandas/io/parquet.py in _get_path_or_handle(path, fs, storage_options, mode, is_dir)
64         fsspec = import_optional_dependency("fsspec")
65
---> 66         fs, path_or_handle = fsspec.core.url_to_fs(
67             path_or_handle, **(storage_options or {})
68         )

/databricks/python/lib/python3.8/site-packages/fsspec/core.py in url_to_fs(url, **kwargs)
369     else:
370         protocol = split_protocol(url)[0]
--> 371         cls = get_filesystem_class(protocol)
372
373         options = cls._get_kwargs_from_urls(url)

/databricks/python/lib/python3.8/site-packages/fsspec/registry.py in get_filesystem_class(protocol)
206     if protocol not in registry:
207         if protocol not in known_implementations:
--> 208             raise ValueError("Protocol not known: %s" % protocol)
209         bit = known_implementations[protocol]
210         try:

ValueError: Protocol not known: abfss
Я попробовал обходной путь.

Код: Выделить всё

import pandas as pd
import pyspark.pandas as ps
pdf = ps.read_parquet("abfss://abc.parquet").to_pandas()
Приведенный выше запрос на самом деле занимает много времени для преобразования фрейма данных pyspark.pandas в фрейм данных pandas.
ПРИМЕЧАНИЕ. Я не могу смонтировать adls в dbfs, потому что dbfs отключен командой платформы, и, следовательно, все операции необходимо выполнять в adls.
Я ищу более быстрый или простой способ чтения файлов из adls gen2 с помощью питон панды.

Подробнее здесь: https://stackoverflow.com/questions/733 ... ing-pandas
Реклама
Ответить Пред. темаСлед. тема

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение
  • Как прочитать файл, хранящийся в adls gen 2, с помощью панд?
    Anonymous » » в форуме Python
    0 Ответы
    10 Просмотры
    Последнее сообщение Anonymous
  • Создание ярлыка в ткани для подключения к ADLS Gen 2 через API REST [закрыто]
    Anonymous » » в форуме Python
    0 Ответы
    2 Просмотры
    Последнее сообщение Anonymous
  • Как прочитать CSV-файл, хранящийся как артефакт в MLrun
    Anonymous » » в форуме Python
    0 Ответы
    13 Просмотры
    Последнее сообщение Anonymous
  • Как прочитать номер версии проекта, хранящийся в файле pyproject.toml, из файла tox.ini?
    Anonymous » » в форуме Python
    0 Ответы
    105 Просмотры
    Последнее сообщение Anonymous
  • Сохранение statsmodel в ADLS Blob Hore
    Anonymous » » в форуме Python
    0 Ответы
    2 Просмотры
    Последнее сообщение Anonymous

Вернуться в «Python»