Delta Lake для настройки ноутбуков AWS Glue

Delta Lake для настройки ноутбуков AWS Glue ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Delta Lake для настройки ноутбуков AWS Glue

Цитата

Сообщение Anonymous » 01 мар 2025, 15:37

Я бы хотел настроить формат Delta Lake на AWS Glue и выполнить простую ETL с помощью df.write.format ("delta"). Mode ("Overwrite"). Сохранить. (s3) может ли кто-нибудь предоставить мне код копии-паста для этого?{
"--datalake-formats": "delta"
}
< /code>
import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job

sc = SparkContext.getOrCreate()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
< /code>
and then according to documentation -

Create a key named --conf for your AWS Glue job, and set it to the following value. Alternatively, you can set the following configuration using SparkConf in your script. These settings help Apache Spark correctly handle Delta Lake tables.

spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension --conf spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog --conf spark.delta.logStore.class=org.apache.spark.sql.delta.storage.S3SingleDriverLogStore
< /code>
import pyspark
from delta.tables import *
from delta import *
from pyspark.sql.types import *
from pyspark.sql.functions import *

# Create a spark session with Delta
builder = pyspark.sql.SparkSession.builder.appName("DeltaTutorial") \
.config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
.config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")

# Create spark context
spark = configure_spark_with_delta_pip(builder).getOrCreate()
spark.sparkContext.setLogLevel("ERROR")
< /code>
And then I got the error:

ModuleNotFoundError: No module named 'delta'

or without import part
# Create a spark session with Delta
builder = pyspark.sql.SparkSession.builder.appName("DeltaTutorial") \
.config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
.config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")

# Create spark context
spark = configure_spark_with_delta_pip(builder).getOrCreate()
spark.sparkContext.setLogLevel("ERROR")
< /code>
error

NameError: name 'configure_spark_with_delta_pip' is not defined

Подробнее здесь: https://stackoverflow.com/questions/776 ... book-setup

1740832675

Anonymous

 Я бы хотел настроить формат Delta Lake на AWS Glue и выполнить простую ETL с помощью df.write.format ("delta"). Mode ("Overwrite"). Сохранить. (s3)  может ли кто-нибудь предоставить мне код копии-паста для этого?{
"--datalake-formats": "delta"
}
< /code>
import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job

sc = SparkContext.getOrCreate()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
< /code>
and then according to documentation -

Create a key named --conf for your AWS Glue job, and set it to the following value. Alternatively, you can set the following configuration using SparkConf in your script. These settings help Apache Spark correctly handle Delta Lake tables.

spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension --conf spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog --conf spark.delta.logStore.class=org.apache.spark.sql.delta.storage.S3SingleDriverLogStore
< /code>
import pyspark
from delta.tables import *
from delta import *
from pyspark.sql.types import *
from pyspark.sql.functions import *

#  Create a spark session with Delta
builder = pyspark.sql.SparkSession.builder.appName("DeltaTutorial") \
.config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
.config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")

# Create spark context
spark = configure_spark_with_delta_pip(builder).getOrCreate()
spark.sparkContext.setLogLevel("ERROR")
< /code>
And then I got the error:

ModuleNotFoundError: No module named 'delta'

or without import part
#  Create a spark session with Delta
builder = pyspark.sql.SparkSession.builder.appName("DeltaTutorial") \
.config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
.config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")

# Create spark context
spark = configure_spark_with_delta_pip(builder).getOrCreate()
spark.sparkContext.setLogLevel("ERROR")
< /code>
error

NameError: name 'configure_spark_with_delta_pip' is not defined
 

Подробнее здесь: [url]https://stackoverflow.com/questions/77605117/delta-lake-for-aws-glue-notebook-setup[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Подключение и аутентификация к Delta Lake в Azure Data Lake Storage Gen 2 с использованием API Python delta-rs

Последнее сообщение Anonymous « 19 сен 2024, 14:47
Добавлено в форуме Python

Anonymous » 19 сен 2024, 14:47 » в форуме Python

Я пытаюсь подключиться и пройти проверку подлинности в существующей разностной таблице в Azure Data Lake Storage Gen 2 с помощью API Python Delta-rs. Я нашел библиотеку Delta-rs из этого вопроса StackOverflow: Delta Lake независимо от Apache Spark?...

0 Ответы

35 Просмотры

Последнее сообщение Anonymous
19 сен 2024, 14:47
Запись формата Delta в Data Lake в AWS S3

Последнее сообщение Anonymous « 26 мар 2024, 09:23
Добавлено в форуме Python

Anonymous » 26 мар 2024, 09:23 » в форуме Python

Моя цель — загрузить данные в дельта-формате в озеро данных AWS S3.
Я должен отметить, что мне удалось загрузить файлы (паркет) в это озеро данных, а также я могу написать дельта-формат в моя локальная машина, но когда я пытаюсь записать...

0 Ответы

37 Просмотры

Последнее сообщение Anonymous
26 мар 2024, 09:23
Azure Data Lake Gen 2 и Python копируют файлы в папках Data Lake

Последнее сообщение Anonymous « 15 мар 2024, 07:22
Добавлено в форуме Python

Anonymous » 15 мар 2024, 07:22 » в форуме Python

Использование примеров, приведенных здесь: Мне удалось подключиться к моему экземпляру Azure Data Lake и просмотреть структуру каталогов/файлов. Выполните несколько простых операций. Все хорошо.

Следующий шаг: я загрузил большой файл в озеро...

0 Ответы

76 Просмотры

Последнее сообщение Anonymous
15 мар 2024, 07:22
Как создать дельта-таблицу с помощью автономного озера Delta Lake и записать данные

Последнее сообщение Anonymous « 30 сен 2024, 12:46
Добавлено в форуме JAVA

Anonymous » 30 сен 2024, 12:46 » в форуме JAVA

Я могу прочитать дельта-таблицу, созданную в Amazon S3, с помощью автономного API, но не могу создать дельта-таблицу и вставить в нее данные. В приведенной ниже ссылке на озеро Дельта упоминается использование устройства чтения и записи Zappy,...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
30 сен 2024, 12:46
Как упаковать сценарий Pyspark + Delta Lake в Exe с Pyinstaller

Последнее сообщение Anonymous « 26 авг 2025, 02:56
Добавлено в форуме Python

Anonymous » 26 авг 2025, 02:56 » в форуме Python

Я пытаюсь преобразовать свой сценарий pyspark в исполняемый (.exe) файл с использованием Pyinstaller.
Сценарий работает нормально в Python, но после конвертации в EXE и выполнение его, я получаю следующую ошибку:
'JavaPackage' object is not...

0 Ответы

0 Просмотры

Последнее сообщение Anonymous
26 авг 2025, 02:56

Вернуться в «Python»