데브코스 TIL/빅데이터, 스트리밍 데이터 처리 32

Kafka 기타기능

강의 Kafka Connect "Kafka Connect"는 Kafka 위에 생성된 중앙 집중 데이터 허브 입니다. Broker 일부 혹은 별도 서버로 구성 → 별도 오픈소스 프로젝트 데이터 버스 혹은 메시지 버스 모드 Standalone 모드 : 개발 혹은 테스트 Distributed 모드 데이터베이스, 파일 시스템, 키-값 저장소, 검색 인덱스 등 저장 데이터 소스 및 데이터 싱크 Kafka Schema Registry "Kafka Schema Registry"는 Topic 메시지 데이터에 대한 스키마를 관리 및 검증합니다. 포맷 변천(Schema Evolution) 지원 : Schema ID 혹은 버전 사용 포맷 변경 종류 Forward Compatibility : Producer 변경 후 Cons..

Serialization & Deserialization

강의 Serialization & Deserialization Serialization(직렬화) 객체의 상태를 저장 혹은 전송할 수 있는 형태로 변환하는 프로세스 데이터 압축 수행 데이터 스키마 정보 추가 Deserialization(역직렬화) Serialized 데이터를 사용할 수 있는 형태로 변환하는 프로세스 데이터 압축 해제 수행 스키마 정보를 통해 데이터 포맷 검증 수행

Kafka 소개

강의 Kafka 역사 2008년 탄생 : LinkedIn 내부 실시간 데이터 처리 2011년 오픈소스화 : Apache 2014년 Confluent 창업 2021년 나스닥 상장 Kafka "Kafka"는 실시간 데이터를 처리하기 위해 설계된 오픈소스 분산 스트리밍 플랫폼 입니다. 데이터 재생이 가능한 분산 커밋 로그 (Distributed Commit Log) Publish-Subscription (Producer-Consumer) Massaging System : 생산자 및 소비자 독립적으로 작업 가능 Immutable High Throughput Low Latency : 사내 내부 데이터 버스 사용 가능 Scale Out 정해진 보유기한(retention period)동안 메시지 저장 : 소비자 오프..

스트리밍 데이터 처리 소개

강의 스트리밍 데이터 배치 처리를 시작으로 서비스가 고도화되면서 실시간 처리 요구가 발생하기 시작했습니다. 동일 데이터 소비가 필요한 경우가 증가하여 다수의 데이터 소비자가 등장하였습니다. 종류 Online Service Funnel Data Page Views and Performance Data 사용자 등록, 사용자 로그인, 방문자 발생 Retail Business 재고 업데이트 주문 이벤트 배송 이벤트 IoT(Internet of Things) 센서 판독값 장치 상태 업데이트 알람 이벤트 사용 사례 Realtime Reporting A/B Test Analytics Marketing Campaign Dashboard Infrastructure Monitoring Realtime Alerting Fr..