_MapReduce 2

Map Reduce 프로그래밍

강의 Map Reduce 프로그래밍 디스크 기반 Key, Value 쌍의 집합 형태의 데이터셋 포맷 변경 불가 (immutable) map 혹은 reduce 오퍼레이션으로만 데이터 조작 가능 셔플링 : Map 결과 Reduce단에 적재 Map (k, v) → [(k', v')*] 형태 지정된 HDFS 파일로부터 시스템에 의해 입력 Reduce (k', [v1', v2', v3', ...]) → (k'', v'') Map의 출력 중 같은 키를 갖는 페어를 묶어서 시스템에 의해 입력 HDFS에 출력 저장 Shuffling Mapper의 출력을 Reducer로 전송하는 프로세스 전송하는 데이터의 크기가 크면 네트워크 병목 초래 및 시간 효율 감소 Sorting Mapper의 출력을 Reducer가 받아 키 별..

Hadoop 소개 및 설치

강의 Hadoop "하둡"(Hadoop)은 다수의 노드로 구성된 클러스터(Cluster) 시스템 입니다. 발전 HDFS 위에서 분산 컴퓨팅 시스템 MapReduce을 작동 분산 처리 시스템 YARN 위에서 동작 다수의 스탠바이 내임노드 지원 Hadoop 1.0 분산 파일 시스템 HDFS 블록단위 저장 블록 복제 방식 (Replication) : 중복 저장 내임 노드 이중화 지원 분산 컴퓨팅 시스템 MapReduce 하나의 잡 트래커 및 다수의 태스크 트래커로 구성 잡 트래커 : 태스크 분배 태스크 트래커 : 병렬 처리 MapReduce만 지원 Hadoop 2.0 YARN 분산 컴퓨팅 시스템 세부 리소스 관리 가능한 범용 컴퓨팅 프레임워크 리소스 매니저 및 노드 매니저, 컨테이너로 구성 동작 형태 실행 코..