예니ㅣ 2024. 1. 22. 14:08

강의

배치 처리

"배치 처리"는 주기적으로 데이터를 한 곳에서 다른 곳으로 이동하거나 처리하는 것입니다.

가장 중요한 성능은 처리량(Throughput) 입니다.

  • 처리 주기 : 시간, 분, 일 단위
  • 처리 시스템 구조
    • 분산 파일 시스템 : HDFS, S3
    • 분산 처리 시스템 : MapReduce, Hive/Presto, Spark DataFrame, Spark SQL
    • 처리 작업 스케줄링 : Airflow