_Airflow 15

Airflow 설치

강의 Airflow 설치 방법 직접 설치 Docker Desktop 사용 git clone https://github.com/yen/airflow-setup.git cd airflow-setup curl -LfO 'https://airflow.apache.org/docs/apache-airflow/2.5.1/docker-compose.yaml' docker-compose -f docker-compose.yaml pull docker-compose -f docker-compose.yaml upc 리눅스 서버 사용 : AWS EC2 및 우분투 20.04 AWS 계정 필요 : Free Tier가 아니므로 비용 발생 고려 Airflow 설치 과정에서 3개의 어카운트가 사용됩니다. ubuntu : 메인 어카운트 ..

Airflow 소개

강의 "Airflow"는 파이썬으로 작성된 데이터 파이프라인(ETL) 프레임워크 입니다. 데이터 파이프라인 스케줄링 지원 웹 UI도 제공 데이터 소스와 데이터 웨어하우스 통합 용이하게 만드는 모듈 제공 Backfill 기능 제공 "DAG"(Direted Acyclic Graph)는 Airflow에서의 데이터 파이프라인 입니다. 하나의 DAG는 다수의 태스크로 구성되어 있습니다. "태스트"는 Airflow의 Operator로 만들어 집니다. 이미 만들어진 오퍼레이터를 사용하거나 직접 새로운 오퍼레이터를 개발할 수 있습니다. 오퍼레이터 종류 Redshift writing Postgres query S3 Read/Write Hive query Spark job shell script Airflow 구성 Air..

데이터 웨어하우스 옵션

강의 데이터 조직 데이터 조직의 비전은 신뢰할 수 있는 데이터를 바탕으로 부가 가치를 생성하는 것입니다. 데이터 조직의 역할 결정 과학(Decision Science) 고품질 데이터를 기반으로 의사 결정권자에게 입력 제공 데이터 고려 결정(Data Informed Decisions) vs 데이터 기반 결정(Data Driven Decisions) 데이터 기반 지표 정의 혹은 대시보드와 리포트 생성 데이터 분석가(Data Analysist) Product Science 고품질 데이터를 기반으로 사용자 서비스 경험 개선 혹은 프로세스 최적화 오류 최소화 머신 러닝 알고리즘 이용 이상적인 데이터 흐름 데이터 인프라 구축 데이터 분석 : 지표 정의 및 시각화 데이터 과학 적용 사용자 경험 개선 데이터 플랫폼 발..

데브코스 TIL 2023.11.27