AWS Glue и Kafka: как избежать повторной обработки старых записей? - Цифровое Кемерово

AWS Glue и Kafka: как избежать повторной обработки старых записей? ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

AWS Glue и Kafka: как избежать повторной обработки старых записей?

Цитата

Сообщение Anonymous » 06 ноя 2024, 04:21

Я новичок в потоковой передаче. Я работаю над установкой, в которой у меня есть задание AWS Glue, которое извлекает записи из кластера MSK. Это задание Glue запускается группой обеспечения доступности баз данных Airflow каждые 30 минут. Вот рабочий процесс:
Когда группа обеспечения доступности баз данных запускает задание Glue, она извлекает данные из темы Kafka, обрабатывает их, а затем сохраняет результаты в таблице Glue.
На При следующем триггере DAG (30 минут спустя) я хочу обрабатывать и вставлять только новые записи из темы Kafka — по сути, только данные, полученные с момента последнего запуска.
Я разобрался с основами: извлечение данных из Kafka, его обработка и вставка в таблицы Glue. Но я не уверен, как обеспечить обработку только новых записей при последующих запусках.
это упрощенная версия задания склеивания:

Код: Выделить всё

spark = (
SparkSession
.builder
.appName("Streaming from Kafka")
.config("spark.streaming.stopGracefullyOnShutdown", True)
.config('spark.jars.packages', 'org.apache.spark:spark-sql-kafka-0-10_2.12:3.3.0')
.config("spark.sql.shuffle.partitions", 4)
.getOrCreate()
)

event_logs_df = spark \
.read \
.format("kafka") \
.option("kafka.bootstrap.servers", f"b-xxx.us-west-2.amazonaws.com:9098") \
.option("subscribe", f"controller_config") \
.option("minOffsetsPerTrigger", 1) \
.option("maxOffsetsPerTrigger", 100) \
.option("maxTriggerDelay", "1ms") \
.option("startingOffsets", f"earliest") \
.option("kafka.security.protocol", "SASL_SSL") \
.option("kafka.sasl.mechanism", "AWS_MSK_IAM") \
.option("kafka.sasl.jaas.config", "software.amazon.msk.auth.iam.IAMLoginModule required;") \
.option("kafka.sasl.client.callback.handler.class", "software.amazon.msk.auth.iam.IAMClientCallbackHandler") \
.load()

# Define the schema for the JSON structure in the value column
json_schema = StructType([
StructField("in_s3_bucket", StringType(), True),
StructField("in_s3_key", StringType(), True)
])

# Cast the value column to string, then parse the JSON
df_joined = event_logs_df \
.select(
from_json(col("value").cast("string"), json_schema).alias("parsed_value"),
col("timestamp")
) \
.select("parsed_value.in_s3_bucket", "parsed_value.in_s3_key", "timestamp") \
.orderBy(desc("timestamp"))

if spark._jsparkSession.catalog().tableExists(
out_glue_db_name.replace("", ""),
out_glue_table_name.replace("", "")
):
df_joined.select("date", "s3key", "cc", "reason", "companyid", "siteid", "satid", "year") \
.write.format("parquet") \
.mode("append") \
.insertInto(f"{out_glue_db_name}.{out_glue_table_name}")
else:
df_joined.select("cid", "siteid", "satid", "year", "date", "s3key", "cc", "reason") \
.write.partitionBy("cid", "siteid", "satid", "year") \
.format("parquet") \
.mode("overwrite") \
.saveAsTable(
name=f"{out_glue_db_name}.{out_glue_table_name}",
path=f"s3://{out_s3_bucket}/{out_glue_table_name}"

Я бы не хотел вносить какие-либо изменения в метод записи. Как я могу использовать для этого контрольно-пропускные пункты в Кафке? Будет ли это считаться пакетным или потоковым заданием? Каков был бы наиболее эффективный способ решить эту проблему, не внося больших изменений в текущую версию кода?

Подробнее здесь: https://stackoverflow.com/questions/791 ... ld-records

Реклама

1730856081

Anonymous

Я новичок в потоковой передаче. Я работаю над установкой, в которой у меня есть задание AWS Glue, которое извлекает записи из кластера MSK. Это задание Glue запускается группой обеспечения доступности баз данных Airflow каждые 30 минут. Вот рабочий процесс:
Когда группа обеспечения доступности баз данных запускает задание Glue, она извлекает данные из темы Kafka, обрабатывает их, а затем сохраняет результаты в таблице Glue.
На При следующем триггере DAG (30 минут спустя) я хочу обрабатывать и вставлять только новые записи из темы Kafka — по сути, только данные, полученные с момента последнего запуска.
Я разобрался с основами: извлечение данных из Kafka, его обработка и вставка в таблицы Glue. Но я не уверен, как обеспечить обработку только новых записей при последующих запусках.
это упрощенная версия задания склеивания:
[code]spark = (
SparkSession
.builder
.appName("Streaming from Kafka")
.config("spark.streaming.stopGracefullyOnShutdown", True)
.config('spark.jars.packages', 'org.apache.spark:spark-sql-kafka-0-10_2.12:3.3.0')
.config("spark.sql.shuffle.partitions", 4)
.getOrCreate()
)

event_logs_df = spark \
.read \
.format("kafka") \
.option("kafka.bootstrap.servers", f"b-xxx.us-west-2.amazonaws.com:9098") \
.option("subscribe", f"controller_config") \
.option("minOffsetsPerTrigger", 1) \
.option("maxOffsetsPerTrigger", 100) \
.option("maxTriggerDelay", "1ms") \
.option("startingOffsets", f"earliest") \
.option("kafka.security.protocol", "SASL_SSL") \
.option("kafka.sasl.mechanism", "AWS_MSK_IAM") \
.option("kafka.sasl.jaas.config", "software.amazon.msk.auth.iam.IAMLoginModule required;") \
.option("kafka.sasl.client.callback.handler.class", "software.amazon.msk.auth.iam.IAMClientCallbackHandler") \
.load()

# Define the schema for the JSON structure in the value column
json_schema = StructType([
StructField("in_s3_bucket", StringType(), True),
StructField("in_s3_key", StringType(), True)
])

# Cast the value column to string, then parse the JSON
df_joined = event_logs_df \
.select(
from_json(col("value").cast("string"), json_schema).alias("parsed_value"),
col("timestamp")
) \
.select("parsed_value.in_s3_bucket", "parsed_value.in_s3_key", "timestamp") \
.orderBy(desc("timestamp"))

if spark._jsparkSession.catalog().tableExists(
out_glue_db_name.replace("", ""),
out_glue_table_name.replace("", "")
):
df_joined.select("date", "s3key", "cc", "reason", "companyid", "siteid", "satid", "year") \
.write.format("parquet") \
.mode("append") \
.insertInto(f"{out_glue_db_name}.{out_glue_table_name}")
else:
df_joined.select("cid", "siteid", "satid", "year", "date", "s3key", "cc", "reason") \
.write.partitionBy("cid", "siteid", "satid", "year") \
.format("parquet") \
.mode("overwrite") \
.saveAsTable(
name=f"{out_glue_db_name}.{out_glue_table_name}",
path=f"s3://{out_s3_bucket}/{out_glue_table_name}"

[/code]
Я бы не хотел вносить какие-либо изменения в метод записи. Как я могу использовать для этого контрольно-пропускные пункты в Кафке? Будет ли это считаться пакетным или потоковым заданием? Каков был бы наиболее эффективный способ решить эту проблему, не внося больших изменений в текущую версию кода? 

Подробнее здесь: [url]https://stackoverflow.com/questions/79160901/aws-glue-and-kafka-how-to-avoid-reprocessing-old-records[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как вставить данные временных меток в таблицу Iceberg, управляемую AWS Glue, с помощью AWS Firehose?

Последнее сообщение Anonymous « 09 окт 2024, 13:43
Добавлено в форуме Python

Anonymous » 09 окт 2024, 13:43 » в форуме Python

Используя AWS Firehose для загрузки данных в таблицу Iceberg, управляемую AWS Glue, я не могу вставить данные временных меток.
Firehose
Я пытаюсь вставить данные с помощью следующего скрипта:
json_data = json.dumps(
{
ADF_Record : {
foo : bar...

0 Ответы

17 Просмотры

Последнее сообщение Anonymous
09 окт 2024, 13:43
Как вставить данные временных меток в таблицу Iceberg, управляемую AWS Glue, с помощью AWS Firehose?

Последнее сообщение Anonymous « 10 окт 2024, 12:55
Добавлено в форуме Python

Anonymous » 10 окт 2024, 12:55 » в форуме Python

Используя AWS Firehose для загрузки данных в таблицу Iceberg, управляемую AWS Glue, я не могу вставить данные метки времени.
Firehose
Я пытаюсь вставить данные с помощью следующего скрипта:
json_data = json.dumps(
{
ADF_Record : {
foo : bar ,...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
10 окт 2024, 12:55
AWS Glue: не может определить массив структуры с AWS CDK

Последнее сообщение Anonymous « 09 июн 2025, 17:18
Добавлено в форуме Python

Anonymous » 09 июн 2025, 17:18 » в форуме Python

Я пытаюсь создать клейкую таблицу с столбцом, который отображает массив структуры с определенной схемой. Используя экспериментальную конструкцию AWS_GLUE_ALPHA , определение массива структуры возможно только с помощью этого синтаксиса кода...

0 Ответы

3 Просмотры

Последнее сообщение Anonymous
09 июн 2025, 17:18
AWS Glue: не может определить массив структуры с AWS CDK

Последнее сообщение Anonymous « 10 июн 2025, 00:50
Добавлено в форуме Python

Anonymous » 10 июн 2025, 00:50 » в форуме Python

Я пытаюсь создать клейкую таблицу с столбцом, который отображает массив структуры с определенной схемой. Используя экспериментальную конструкцию AWS_GLUE_ALPHA , определение массива структуры возможно только с помощью этого синтаксиса кода...

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
10 июн 2025, 00:50
AWS Glue: не может определить массив структуры с AWS CDK

Последнее сообщение Anonymous « 10 июн 2025, 01:27
Добавлено в форуме Python

Anonymous » 10 июн 2025, 01:27 » в форуме Python

Я пытаюсь создать клейкую таблицу с столбцом, который отображает массив структуры с определенной схемой. Используя экспериментальную конструкцию AWS_GLUE_ALPHA , определение массива структуры возможно только с помощью этого синтаксиса кода...

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
10 июн 2025, 01:27

Вернуться в «Python»

Programmiererforum