강의
배치 처리
"배치 처리"는 주기적으로 데이터를 한 곳에서 다른 곳으로 이동하거나 처리하는 것입니다.
가장 중요한 성능은 처리량(Throughput) 입니다.
- 처리 주기 : 시간, 분, 일 단위
- 처리 시스템 구조
- 분산 파일 시스템 : HDFS, S3
- 분산 처리 시스템 : MapReduce, Hive/Presto, Spark DataFrame, Spark SQL
- 처리 작업 스케줄링 : Airflow
'데브코스 TIL > 빅데이터, 스트리밍 데이터 처리' 카테고리의 다른 글
스트리밍 데이터 처리 소개 (0) | 2024.01.22 |
---|---|
데이터 처리 변천 (1) | 2024.01.22 |
Spark 클라우드 (0) | 2024.01.22 |
Spark 내부동작 (0) | 2024.01.18 |
Spark 파일 포맷 (0) | 2024.01.18 |