Airflow: как повторить задачу, если соответствующий датчик вышел из строя?

import time
import logging
from datetime import timedelta
from typing import Any, Dict, List, Optional

import pendulum
from sqlalchemy.orm.session import Session

from airflow.decorators import dag, task
from airflow.sensors.base import PokeReturnValue
from airflow.models import taskinstance
from airflow.utils.state import State
from airflow.utils.db import provide_session
from airflow.utils.session import NEW_SESSION, provide_session

logger = logging.getLogger("airflow.task")

@provide_session
def on_failure_callback(context: Dict[str, Any], session: Session = NEW_SESSION) -> None:
logger.info(f"on_failure_callback()")

start_job_task = _get_task(context, "start_job")
wait_for_job_task = _get_task(context, "wait_for_job")

# _clear_task(wait_for_job_task, session, context)
# _clear_task(start_job_task, session, context)

# start_job_task.set_state(State.FAILED)
# wait_for_job_task.set_state(State.UP_FOR_RETRY)

logging.info("set state of start_job_task to UP_FOR_RETRY ...")
start_job_task.set_state(State.UP_FOR_RETRY)

def _clear_task(task, session, context):
logger.info(f"run clear_task_instances() for task: {task.task_id}")
taskinstance.clear_task_instances(
tis=[task, ],
session=session,
dag=context["dag"])

def _get_task(
context: Dict[str, Any],
task_id: str,
) -> taskinstance.TaskInstance:

task_instances: List[taskinstance.TaskInstance] = context["dag_run"].get_task_instances()
logger.info(f"task_instances: {task_instances}")
for ti in task_instances:
logger.info(f"    ti.task_id: {ti.task_id}")
if ti.task_id == task_id:
return ti

@provide_session
def on_retry_callback(context: Dict[str, Any], session: Session = NEW_SESSION) -> None:
print("on_retry_callback()")

@dag(
schedule=None,
# schedule="@once",
# schedule="*/5 * * * *",     # At every 5th minute.
start_date=pendulum.datetime(2023, 1, 1, tz="UTC"),
catchup=False,
tags=["job"],
)
def start_jobs_minimal_dag():

@task(
execution_timeout=timedelta(seconds=30),
retries=3,
retry_delay=timedelta(seconds=10),
)
def start_job():
job_id = 1
time.sleep(1)
return job_id

@task.sensor(
execution_timeout=timedelta(seconds=5),
timeout=60,
retries=3,
retry_delay=timedelta(seconds=2),
# leads to endless loop
# mode='reschedule',
on_failure_callback=on_failure_callback,
on_retry_callback=on_retry_callback,
)
def wait_for_job(job_id: int) -> PokeReturnValue:
logger.info(f"wait_for_job(): job_id: {job_id}")
time.sleep(2)
# make the sensor fail
return PokeReturnValue(is_done=False, xcom_value=None)

job_id = start_job()
wait_for_job(job_id)

start_jobs_minimal_dag()

Источник: https://stackoverflow.com/questions/781 ... nsor-fails

1710157512

Гость


У меня есть простая группа обеспечения доступности баз данных с задачей ([code]start_job[/code]) that starts a job via REST API.
A sensor task ([code]wait_for_job[/code]) waits for the job to complete.
If the job doesn't complete within the configured sensor timeout, the job failed and I want both the [code]start_job[/code] and the [code]wait_for_job[/code] task to be re-tried.
I managed it to retry the [code]start_job[/code] task using the [code]on_failure_callback[/code] of the [code]wait_for_job[/code] sensor task. But after its execution, the [code]wait_for_job[/code] task is not triggered.
The last message of the [code]start_job[/code] task is "INFO - 0 downstream tasks scheduled from follow-on schedule check". I expected that 1 downstream task is found (as in the first run of the [code]start_job[/code] task).
Here is a minimal DAG without the REST API stuff:
[code]import time
import logging
from datetime import timedelta
from typing import Any, Dict, List, Optional

import pendulum
from sqlalchemy.orm.session import Session

from airflow.decorators import dag, task
from airflow.sensors.base import PokeReturnValue
from airflow.models import taskinstance
from airflow.utils.state import State
from airflow.utils.db import provide_session
from airflow.utils.session import NEW_SESSION, provide_session

logger = logging.getLogger("airflow.task")

@provide_session
def on_failure_callback(context: Dict[str, Any], session: Session = NEW_SESSION) -> None:
logger.info(f"on_failure_callback()")

start_job_task = _get_task(context, "start_job")
wait_for_job_task = _get_task(context, "wait_for_job")

# _clear_task(wait_for_job_task, session, context)
# _clear_task(start_job_task, session, context)

# start_job_task.set_state(State.FAILED)
# wait_for_job_task.set_state(State.UP_FOR_RETRY)

logging.info("set state of start_job_task to UP_FOR_RETRY ...")
start_job_task.set_state(State.UP_FOR_RETRY)

def _clear_task(task, session, context):
logger.info(f"run clear_task_instances() for task: {task.task_id}")
taskinstance.clear_task_instances(
tis=[task, ],
session=session,
dag=context["dag"])

def _get_task(
context: Dict[str, Any],
task_id: str,
) -> taskinstance.TaskInstance:

task_instances: List[taskinstance.TaskInstance] = context["dag_run"].get_task_instances()
logger.info(f"task_instances: {task_instances}")
for ti in task_instances:
logger.info(f"    ti.task_id: {ti.task_id}")
if ti.task_id == task_id:
return ti

@provide_session
def on_retry_callback(context: Dict[str, Any], session: Session = NEW_SESSION) -> None:
print("on_retry_callback()")

@dag(
schedule=None,
# schedule="@once",
# schedule="*/5 * * * *",     # At every 5th minute.
start_date=pendulum.datetime(2023, 1, 1, tz="UTC"),
catchup=False,
tags=["job"],
)
def start_jobs_minimal_dag():

@task(
execution_timeout=timedelta(seconds=30),
retries=3,
retry_delay=timedelta(seconds=10),
)
def start_job():
job_id = 1
time.sleep(1)
return job_id

@task.sensor(
execution_timeout=timedelta(seconds=5),
timeout=60,
retries=3,
retry_delay=timedelta(seconds=2),
# leads to endless loop
# mode='reschedule',
on_failure_callback=on_failure_callback,
on_retry_callback=on_retry_callback,
)
def wait_for_job(job_id: int) -> PokeReturnValue:
logger.info(f"wait_for_job(): job_id: {job_id}")
time.sleep(2)
# make the sensor fail
return PokeReturnValue(is_done=False, xcom_value=None)

job_id = start_job()
wait_for_job(job_id)

start_jobs_minimal_dag()
[/code] 

Источник: [url]https://stackoverflow.com/questions/78139395/airflow-how-to-retry-a-task-if-its-corresponding-sensor-fails[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Когда статус задачи Airflow Neptune — «LOAD_IN_QUEUE», Airflow пытается повторить попытку.

Последнее сообщение Anonymous « 01 окт 2024, 14:27
Добавлено в форуме Python

Anonymous » 01 окт 2024, 14:27 » в форуме Python

Я работаю на мультитенантной платформе конвейера данных. Итак, на данный момент у нас около 5 арендаторов. В качестве инструмента оркестрации мы используем AWS MWAA
(Apache Airflow). Каждый арендатор имеет отдельный DAG и запускается...

0 Ответы

42 Просмотры

Последнее сообщение Anonymous
01 окт 2024, 14:27
Когда статус задачи Airflow Neptune — «LOAD_IN_QUEUE», Airflow пытается повторить попытку.

Последнее сообщение Anonymous « 01 окт 2024, 21:12
Добавлено в форуме Python

Anonymous » 01 окт 2024, 21:12 » в форуме Python

Я работаю на мультитенантной платформе конвейера данных. Итак, на данный момент у нас около 5 арендаторов. В качестве инструмента оркестрации мы используем AWS MWAA
(Apache Airflow). Каждый арендатор имеет отдельный DAG и запускается...

0 Ответы

37 Просмотры

Последнее сообщение Anonymous
01 окт 2024, 21:12
Джасыпт вышел из строя? Что использовать для шифрования с помощью Spring Boot

Последнее сообщение Anonymous « 22 июл 2024, 18:40
Добавлено в форуме JAVA

Anonymous » 22 июл 2024, 18:40 » в форуме JAVA

Jasypt ( и соответствующая интеграция Spring Boot ( похоже, больше не существуют.

проблемы с последней версией Java LTS (17)
за последнее время активности не было

Каковы современные эффективные методы шифрования свойств в приложениях Spring...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
22 июл 2024, 18:40
Работник Python неожиданно вышел из строя

Последнее сообщение Anonymous « 15 ноя 2024, 15:00
Добавлено в форуме Python

Anonymous » 15 ноя 2024, 15:00 » в форуме Python

print(sc.parallelize( ).map(lambda x:x*x).collect())

Error: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.: org.apache.spark.SparkException: Job aborted due to stage failure: Task 16 in stage 1.0 failed 1...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
15 ноя 2024, 15:00
Сервер Laravel неожиданно вышел из строя

Последнее сообщение Anonymous « 07 дек 2024, 09:35
Добавлено в форуме Php

Anonymous » 07 дек 2024, 09:35 » в форуме Php

Запуск php-сервера с использованием artisan-сервиса иногда приводил к сбоям.
2024-12-07 11:33:22 /build/assets/app-CrG75o6_.js ................ ~ 3.80ms

Сведения об ошибке:
ErrorException

Undefined array key 0

at...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
07 дек 2024, 09:35

Вернуться в «Python»