데브코스 TIL/빅데이터, 스트리밍 데이터 처리 32

Hadoop 소개 및 설치

강의 Hadoop "하둡"(Hadoop)은 다수의 노드로 구성된 클러스터(Cluster) 시스템 입니다. 발전 HDFS 위에서 분산 컴퓨팅 시스템 MapReduce을 작동 분산 처리 시스템 YARN 위에서 동작 다수의 스탠바이 내임노드 지원 Hadoop 1.0 분산 파일 시스템 HDFS 블록단위 저장 블록 복제 방식 (Replication) : 중복 저장 내임 노드 이중화 지원 분산 컴퓨팅 시스템 MapReduce 하나의 잡 트래커 및 다수의 태스크 트래커로 구성 잡 트래커 : 태스크 분배 태스크 트래커 : 병렬 처리 MapReduce만 지원 Hadoop 2.0 YARN 분산 컴퓨팅 시스템 세부 리소스 관리 가능한 범용 컴퓨팅 프레임워크 리소스 매니저 및 노드 매니저, 컨테이너로 구성 동작 형태 실행 코..

빅데이터 소개

강의 빅데이터 정의 서버 한대로 처리할 수 없는 규모의 데이터 기존의 소프트웨어로는 처리할 수 없는 규모의 데이터 4V (Volume, Velocity, Variety, Varecity) 예시 디바이스 데이터 모바일 디바이스 스마트 TV 각종 센서 데이터 (IoT 센서) 네트워킹 디바이스 웹 빅데이터 처리 데이터 손실 없이 보관 : 스토리지 분산 시스템 처리 시간 효율성 : 병렬처리 비구조화된 데이터 처리 대용량 분산 시스템 분산 환경 기반 : 다수의 서버 구성에 의 분산 파일 시스템 및 분산 컴퓨팅 시스템 Fault Tolerance : 소수의 서버 고장에도 동작 확장 용이 : Scale Out