Airflow는 시작날짜, 스케줄 간격, 종료날짜의 세 가지 매개변수를 사용하여 DAG를 실행하는 시점을 제어할 수 있다.

Airflow는 스케줄의 간격이 지난 시점에 DAG를 트리거 한다.
따라서 start_date 기준 schedule_interval이 도래한 가장 첫 시점에 DAG가 실행된다고 보면 된다.
(실무에서 사용해보지 못했지만 오픈 카톡방인 '한국 데이터 엔지니어 모임' 에서 종종 물어보는 질문이다.)
책의 예시에서는 2019-01-03일의 데이터를 2019-01-04의 정각에 수집하는 예를 보여준다.
일반적인 스케줄러라면 시작일을 2019-01-04로 해야 하겠지만 Airflow에서의 start_date는 예약 간격의 실행 날짜 이기 때문에 start_date는 2019-01-03으로 주어야한다.
'데이터 엔지니어링 > AirFlow' 카테고리의 다른 글
[Airflow] 기반의 데이터 파이프라인(7) - 태스크 간 데이터 공유 (0) | 2023.10.20 |
---|---|
[Airflow] 기반의 데이터 파이프라인(6) - 태스크 간 의존성 및 브랜치 (1) | 2023.10.19 |
[Airflow] 기반의 데이터 파이프라인(5) - 백필(BackFilling) (1) | 2023.10.14 |
[Airflow] 기반의 데이터 파이프라인(3) - 스케줄링 (1) | 2023.10.12 |
[Airflow] 기반의 데이터 파이프라인(2) - Airflow 설치 with Docker (0) | 2023.10.12 |
[Airflow] 기반의 데이터 파이프라인(1) (0) | 2023.10.11 |