Я столкнулся с проблемой при попытке отправить задание PySpark в Google Cloud Dataproc. Цель — запустить сценарий в кластере Dataproc, использующий модуль minio. Однако я продолжаю сталкиваться со следующей ошибкой:
введите здесь описание изображения
Это мой код, который я отправляю в dataproc:введите здесь описание изображения
Мой кластер Dataproc состоит из 1 главного узла и 2 рабочих узлов.
< li>Я отправляю задание с помощью команды gcloud dataproc jobs submit pyspark.
[*]Я упаковал свою среду, включая модуль minio, в файл .tar.gz и загрузил его в Google. Облачное хранилище. Я ссылался на него, используя флаг --py-files.
[*]Я также пробовал использовать файл require.txt, в котором minio указан в качестве зависимости.
Как правильно установить и использовать модуль minio в задании PySpark в Google Cloud Dataproc?
Подробнее здесь: https://stackoverflow.com/questions/789 ... -job-on-go
ModuleNotFoundError: при отправке задания PySpark в Google Cloud Dataproc нет модуля с именем «minio». ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Доступ к набору данных BigQuery из другого проекта GCP с использованием PySpark в Dataproc
Anonymous » » в форуме Python - 0 Ответы
- 15 Просмотры
-
Последнее сообщение Anonymous
-