Commit Log 강의 Commit Log Sequential Immutable Append Only WAL(Write Ahead Logging) : 데이터 무결성 및 신뢰성 보장 표준 방식 Replication 및 Fault Tolerance의 최소 단위 Data Recovery 혹은 Replay에 사용 가능 데브코스 TIL/빅데이터, 스트리밍 데이터 처리 2024.01.24
Kafka 소개 강의 Kafka 역사 2008년 탄생 : LinkedIn 내부 실시간 데이터 처리 2011년 오픈소스화 : Apache 2014년 Confluent 창업 2021년 나스닥 상장 Kafka "Kafka"는 실시간 데이터를 처리하기 위해 설계된 오픈소스 분산 스트리밍 플랫폼 입니다. 데이터 재생이 가능한 분산 커밋 로그 (Distributed Commit Log) Publish-Subscription (Producer-Consumer) Massaging System : 생산자 및 소비자 독립적으로 작업 가능 Immutable High Throughput Low Latency : 사내 내부 데이터 버스 사용 가능 Scale Out 정해진 보유기한(retention period)동안 메시지 저장 : 소비자 오프.. 데브코스 TIL/빅데이터, 스트리밍 데이터 처리 2024.01.24
Lambda Architecture 강의 Lambda Architecture "람다 아키텍쳐"는 배치 레이어와 실시간 레이어를 모두 운영하는 형태를 말합니다. 데브코스 TIL/빅데이터, 스트리밍 데이터 처리 2024.01.22
스트리밍 데이터 처리 소개 강의 스트리밍 데이터 배치 처리를 시작으로 서비스가 고도화되면서 실시간 처리 요구가 발생하기 시작했습니다. 동일 데이터 소비가 필요한 경우가 증가하여 다수의 데이터 소비자가 등장하였습니다. 종류 Online Service Funnel Data Page Views and Performance Data 사용자 등록, 사용자 로그인, 방문자 발생 Retail Business 재고 업데이트 주문 이벤트 배송 이벤트 IoT(Internet of Things) 센서 판독값 장치 상태 업데이트 알람 이벤트 사용 사례 Realtime Reporting A/B Test Analytics Marketing Campaign Dashboard Infrastructure Monitoring Realtime Alerting Fr.. 데브코스 TIL/빅데이터, 스트리밍 데이터 처리 2024.01.22
데이터 처리 변천 강의 데이터 처리 단계 데이터 수집 (Collection) 데이터 저장 (Storage) 데이터 처리 (Processing) 데이터 저장 시스템 변천 1980년대 후반 : Data Warehouse 2000년대 후반 : Data Lake 2010년대 중반 : Cloud Data Platform / Messaging Queue 2021년 : Data Mesh SLA "SLA"(Service Level Agreement)는 서비스 제공업체와 고객 간의 계약 혹은 합의 입니다. 서비스 품질, 성능 및 가용성의 합의된 수준을 개괄적으로 기술 통신, 클라우드 컴퓨팅에서 사용 사내 시스템 간에도 가능 성능 처리량(Throughput) : 단위 시간 동안 처리할 수 있는 데이터의 양 지연시간(Latency) : 데이.. 데브코스 TIL/빅데이터, 스트리밍 데이터 처리 2024.01.22
배치 처리 소개 강의 배치 처리 "배치 처리"는 주기적으로 데이터를 한 곳에서 다른 곳으로 이동하거나 처리하는 것입니다. 가장 중요한 성능은 처리량(Throughput) 입니다. 처리 주기 : 시간, 분, 일 단위 처리 시스템 구조 분산 파일 시스템 : HDFS, S3 분산 처리 시스템 : MapReduce, Hive/Presto, Spark DataFrame, Spark SQL 처리 작업 스케줄링 : Airflow 데브코스 TIL/빅데이터, 스트리밍 데이터 처리 2024.01.22