데브코스 TIL/빅데이터, 스트리밍 데이터 처리

배치 처리 소개

예니ㅣ 2024. 1. 22. 14:08

강의

배치 처리

"배치 처리"는 주기적으로 데이터를 한 곳에서 다른 곳으로 이동하거나 처리하는 것입니다.

가장 중요한 성능은 처리량(Throughput) 입니다.

  • 처리 주기 : 시간, 분, 일 단위
  • 처리 시스템 구조
    • 분산 파일 시스템 : HDFS, S3
    • 분산 처리 시스템 : MapReduce, Hive/Presto, Spark DataFrame, Spark SQL
    • 처리 작업 스케줄링 : Airflow

 

'데브코스 TIL > 빅데이터, 스트리밍 데이터 처리' 카테고리의 다른 글

스트리밍 데이터 처리 소개  (0) 2024.01.22
데이터 처리 변천  (1) 2024.01.22
Spark 클라우드  (0) 2024.01.22
Spark 내부동작  (0) 2024.01.18
Spark 파일 포맷  (0) 2024.01.18