데브코스 TIL/빅데이터, 스트리밍 데이터 처리
배치 처리 소개
예니ㅣ
2024. 1. 22. 14:08
강의
배치 처리
"배치 처리"는 주기적으로 데이터를 한 곳에서 다른 곳으로 이동하거나 처리하는 것입니다.
가장 중요한 성능은 처리량(Throughput) 입니다.
- 처리 주기 : 시간, 분, 일 단위
- 처리 시스템 구조
- 분산 파일 시스템 : HDFS, S3
- 분산 처리 시스템 : MapReduce, Hive/Presto, Spark DataFrame, Spark SQL
- 처리 작업 스케줄링 : Airflow