У меня есть два проекта GCP:
- gcp-project1: содержит набор данных BigQuery gcp-project1.my_dataset.my_table
gcp-project2: содержит мой myscript.py и мои файлы, хранящиеся в облачном хранилище
< /li>
Согласно документации здесь , при чтении из BigQuery с помощью SQL-запроса мне нужно установить свойства viewsEnabled=true и materializationDataset=dataset.
Здесь какие подходы я пробовал:
Тест 1:
Код: Выделить всё
spark.conf.set("viewsEnabled", "true")
spark.conf.set("materializationDataset", "my_dataset")
Тест 2:< /p>
Код: Выделить всё
spark.conf.set("viewsEnabled", "true")
spark.conf.set("materializationDataset", "gcp-project1.my_dataset")
Тест 3:
Код: Выделить всё
spark.conf.set("viewsEnabled", "true")
spark.conf.set("materializationDataset", "my_dataset")
try:
df = spark.read.format('bigquery') \
.option('project', 'gcp-project1') \ #Adding gcp-project1 contains dataset
.option('query', query1) \
.load()
df.printSchema()
df.show(10)
except Exception as e:
logger.error(f"Failed to read data from BigQuery: {e}")
sys.exit(1)
Вопрос:
Как настроить сценарий PySpark для чтения данных из набора данных BigQuery в gcp-project1, пока запуск сценария в gcp-project2?
Будем признательны за любые предложения по взаимодействию с наборами данных в различных проектах GCP.
Заранее спасибо!
Подробнее здесь: https://stackoverflow.com/questions/789 ... on-datapro