Код: Выделить всё
main_directory - lib - lib.py
- run - script.py
Код: Выделить всё
script.py
Код: Выделить всё
from lib.lib import add_two
spark = SparkSession \
.builder \
.master('yarn') \
.appName('script') \
.getOrCreate()
print(add_two(1,2))
Код: Выделить всё
def add_two(x,y):
return x+y
Код: Выделить всё
gcloud dataproc jobs submit pyspark --cluster=$CLUSTER_NAME --region=$REGION \
run/script.py
Код: Выделить всё
from lib.lib import add_two
ModuleNotFoundError: No module named 'lib.lib'
Код: Выделить всё
from lib import add_two
Код: Выделить всё
gcloud dataproc jobs submit pyspark --cluster=$CLUSTER_NAME --region=$REGION \
--files /lib/lib.py \
/run/script.py
По предложению @Игоря упаковать в zip-файл я обнаружил, что
Код: Выделить всё
zip -j --update -r libpack.zip /projectfolder/* && spark-submit --py-files libpack.zip /projectfolder/run/script.py
Есть предложения?
Подробнее здесь: https://stackoverflow.com/questions/613 ... taproc-job