_Airflow 15

End-to-end 데이터 파이프라인 구성하기

주제 구글 트렌드와 네이버 데이터랩을 이용하여 네이버 실시간 검색어 복원하기 구조 데이터 인프라 형성 구글 트렌드의 키워드 추출 네이버 데이터랩을 통해 검색어 순위 및 백분위 횟수 추출 이슈 구글 트렌드 공용 API 존재하지 않음 네이버 데이터랩 금일 데이터 존재하지 않음 키워드 입력 개수 5개 제한 네이버 데이터랩 ID, PASSWORD Variables 설정 전체 및 성별별 데이터 적재 프로젝트 코드 API RAW_CODE.py import os import sys import pandas as pd from pandas import Timestamp from datetime import datetime import urllib.request import json client_id = "id" cli..

Dag Dependencies

강의 Dag 실행 방법 주기적 실행 : Schedule로 지정 Dag에 의한 트리거 Explicit Trigger : TriggerDagOperator Reactive Trigger : ExternalTaskSensor 조건에 따른 분기 : BranchPythonOperator 불필요한 태스크 처리 : LatestOnlyOperator Trigger Rules "Trigger Rules"는 Upstream 태스크의 성공 혹은 실패 상황에 따라 이어질 태스크의 실행 여부를 결정하는 파라미터 입니다. all_success all_failed all_done one_success none_failed none_failed_min_one_success TriggerDagOperator from airflow.o..