Доступ к набору данных BigQuery из другого проекта GCP с использованием PySpark в Dataproc

Доступ к набору данных BigQuery из другого проекта GCP с использованием PySpark в Dataproc ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Доступ к набору данных BigQuery из другого проекта GCP с использованием PySpark в Dataproc

Цитата

Сообщение Anonymous » 29 сен 2024, 16:05

Я работаю с BigQuery, Dataproc, рабочими процессами и облачным хранилищем в Google Cloud с использованием Python.
У меня есть два проекта GCP:

gcp-project1: содержит набор данных BigQuery gcp-project1.my_dataset.my_table

gcp-project2: содержит мой myscript.py и мои файлы, хранящиеся в облачном хранилище
< /li>

В myscript.py я пытаюсь прочитать SQL-запрос из файла, хранящегося в облачном хранилище (query1 =gs://path/bq.sql) и запросить данные из набора данных BigQuery в gcp-project1.
Согласно документации здесь , при чтении из BigQuery с помощью SQL-запроса мне нужно установить свойства viewsEnabled=true и materializationDataset=dataset.
Здесь какие подходы я пробовал:
Тест 1:

Код: Выделить всё

spark.conf.set("viewsEnabled", "true")
spark.conf.set("materializationDataset", "my_dataset")

Это не удается, поскольку он ищет набор данных в gcp-project2 (где выполняется myscript.py), но мой набор данных в gcp-project1. Ошибка: Не найдено: набор данных gcp-project2:my_dataset не найден в местоположении...
Тест 2:< /p>

Код: Выделить всё

spark.conf.set("viewsEnabled", "true")
spark.conf.set("materializationDataset", "gcp-project1.my_dataset")

Это не удается из-за ошибки: Идентификаторы наборов данных должны быть буквенно-цифровыми (плюс символы подчеркивания) и иметь длину не более 1024 символов.
Тест 3:

Код: Выделить всё

spark.conf.set("viewsEnabled", "true")
spark.conf.set("materializationDataset", "my_dataset")

try:
df = spark.read.format('bigquery') \
.option('project', 'gcp-project1') \ #Adding gcp-project1 contains dataset
.option('query', query1) \
.load()
df.printSchema()
df.show(10)
except Exception as e:
logger.error(f"Failed to read data from BigQuery: {e}")
sys.exit(1)

Это также завершается с той же ошибкой: Не найдено: набор данных gcp-project2:my_dataset не найден в местоположении...
Вопрос:
Как настроить сценарий PySpark для чтения данных из набора данных BigQuery в gcp-project1, пока запуск сценария в gcp-project2?
Будем признательны за любые предложения по взаимодействию с наборами данных в различных проектах GCP.
Заранее спасибо!

Подробнее здесь: https://stackoverflow.com/questions/789 ... on-datapro

1727615150

Anonymous

Я работаю с BigQuery, Dataproc, рабочими процессами и облачным хранилищем в Google Cloud с использованием Python.
У меня есть два проекта GCP:
[list]
[b]gcp-project1:[/b] содержит набор данных BigQuery [b]gcp-project1.my_dataset.my_table[/b]

[b]gcp-project2:[/b] содержит мой [b]myscript.py[/b] и мои файлы, хранящиеся в облачном хранилище
< /li>
[/list]
В [b]myscript.py[/b] я пытаюсь прочитать SQL-запрос из файла, хранящегося в облачном хранилище ([b]query1 =gs://path/bq.sql[/b]) и запросить данные из набора данных BigQuery в [b]gcp-project1[/b].
Согласно документации здесь , при чтении из BigQuery с помощью SQL-запроса мне нужно установить свойства [b]viewsEnabled=true[/b] и [b]materializationDataset=dataset[/b].
Здесь какие подходы я пробовал:
[b]Тест 1:[/b]
[code]spark.conf.set("viewsEnabled", "true")
spark.conf.set("materializationDataset", "my_dataset")
[/code]
Это не удается, поскольку он ищет набор данных в [b]gcp-project2[/b] (где выполняется [b]myscript.py[/b]), но мой набор данных в [b]gcp-project1[/b]. Ошибка: [b]Не найдено: набор данных gcp-project2:my_dataset не найден в местоположении...[/b]
[b]Тест 2:[/b]< /p>
[code]spark.conf.set("viewsEnabled", "true")
spark.conf.set("materializationDataset", "gcp-project1.my_dataset")
[/code]
Это не удается из-за ошибки: [b]Идентификаторы наборов данных должны быть буквенно-цифровыми (плюс символы подчеркивания) и иметь длину не более 1024 символов.[/b]
[b]Тест 3:[/b]
[code]spark.conf.set("viewsEnabled", "true")
spark.conf.set("materializationDataset", "my_dataset")

try:
df = spark.read.format('bigquery') \
.option('project', 'gcp-project1') \ #Adding gcp-project1 contains dataset
.option('query', query1) \
.load()
df.printSchema()
df.show(10)
except Exception as e:
logger.error(f"Failed to read data from BigQuery: {e}")
sys.exit(1)
[/code]
Это также завершается с той же ошибкой: [b]Не найдено: набор данных gcp-project2:my_dataset не найден в местоположении...[/b]
[b]Вопрос:[/b]
Как настроить сценарий PySpark для чтения данных из набора данных BigQuery в [b]gcp-project1[/b], пока запуск сценария в [b]gcp-project2[/b]?
Будем признательны за любые предложения по взаимодействию с наборами данных в различных проектах GCP.
Заранее спасибо!
 

Подробнее здесь: [url]https://stackoverflow.com/questions/78984164/accessing-bigquery-dataset-from-a-different-gcp-project-using-pyspark-on-datapro[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

ModuleNotFoundError: при отправке задания PySpark в Google Cloud Dataproc нет модуля с именем «minio».

Последнее сообщение Anonymous « 19 сен 2024, 18:55
Добавлено в форуме Python

Anonymous » 19 сен 2024, 18:55 » в форуме Python

Я столкнулся с проблемой при попытке отправить задание PySpark в Google Cloud Dataproc. Цель — запустить сценарий в кластере Dataproc, использующий модуль minio. Однако я продолжаю сталкиваться со следующей ошибкой:
введите здесь описание...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
19 сен 2024, 18:55
Dataproc PySpark BatchOp передает выходные данные компонента в словарь свойств runtime_config

Последнее сообщение Anonymous « 12 ноя 2024, 11:47
Добавлено в форуме Python

Anonymous » 12 ноя 2024, 11:47 » в форуме Python

Я создаю пакетное задание Dataproc из конвейера VertexAI.
get_stores_and_discount_data = (DataprocPySparkBatchOp(
project=PROJECT_ID,
location=REGION,
batch_id=f dataproc-job-{file_date} ,
main_python_file_uri=get_data_file,
python_file_uris= ,...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
12 ноя 2024, 11:47
Ошибка 404 возникает при запросе загрузки файла проекта, развернутого на виртуальной машине GCP (GCP, проект Spring).

Последнее сообщение Anonymous « 26 дек 2024, 12:59
Добавлено в форуме Apache

Anonymous » 26 дек 2024, 12:59 » в форуме Apache

В настоящее время мы работаем над проектом Spring Legacy и реализуем функцию загрузки файлов.
В локальной среде запросы на загрузку файлов с использованием AJAX работают нормально.
Однако, когда при развертывании в среде виртуальной машины в консоли...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
26 дек 2024, 12:59
GCP: Bigquery для экспорта данных с CRLF в качестве завершения строки.

Последнее сообщение Гость « 01 мар 2024, 10:34
Добавлено в форуме Python

Гость » 01 мар 2024, 10:34 » в форуме Python

Я пытался экспортировать данные в CSV в BigQuery, по умолчанию файл экспорта создается с LF в качестве завершения строки,

Параметры экспорта данных (uri = 'gs:///.txt', format = 'CSV', overwrite = true, header = false, field_delimiter = '~') как...

0 Ответы

28 Просмотры

Последнее сообщение Гость
01 мар 2024, 10:34
GCP: Bigquery для экспорта данных с CRLF в качестве завершения строки.

Последнее сообщение Гость « 04 мар 2024, 18:54
Добавлено в форуме Python

Гость » 04 мар 2024, 18:54 » в форуме Python

I tried to export the data to CSV in BigQuery, by default it generate the export file with LF as line termination,

export data options(uri = 'gs:///.txt', format = 'CSV',overwrite = true, header = false, field_delimiter = '~') as select * from...

0 Ответы

17 Просмотры

Последнее сообщение Гость
04 мар 2024, 18:54

Вернуться в «Python»