_설치 6

Kafka 설치

강의 Kafka 설치 Docker Compose 사영 Github repo 사용 : https://github.com/conduktor/kafka-stack-docker-compose full-stack.yml zk-single-kafka-single.yml zk-single-kafka-multiple.yml zk-multiple-kafka-single.yml zk-multiple-kafka-multiple.yml Kafka 웹 UI localhost:8080 ID : admin@admin.io / Password : admin git clone https://github.com/conduktor/kafka-stack-docker-compose cd kafka-stack-docker-compose doc..

Spark 설치 및 테스트

강의 Spark 설치 구글 Colab PySpark 및 Py4J 패키지 사용 !pip install pyspark==3.3.1 py4j==0.10.9.5 from pyspark.sql import SparkSession spark = SparkSession.builder\ .master("local[*]")\ .appName('PySpark Tutorial')\ .getOrCreate() spark Local Standalone Spark Z쉘 사용 기본 JDK8/11 필요 JAVA_HOME 환경변수 ~/.zshrc에 등록 Spark 다운로드 java -version /usr/libexec/java_home export JAVA_HOME= 디렉토리 경로 echo $JAVA_HOME vi ~/.zshrc ..

Hadoop 소개 및 설치

강의 Hadoop "하둡"(Hadoop)은 다수의 노드로 구성된 클러스터(Cluster) 시스템 입니다. 발전 HDFS 위에서 분산 컴퓨팅 시스템 MapReduce을 작동 분산 처리 시스템 YARN 위에서 동작 다수의 스탠바이 내임노드 지원 Hadoop 1.0 분산 파일 시스템 HDFS 블록단위 저장 블록 복제 방식 (Replication) : 중복 저장 내임 노드 이중화 지원 분산 컴퓨팅 시스템 MapReduce 하나의 잡 트래커 및 다수의 태스크 트래커로 구성 잡 트래커 : 태스크 분배 태스크 트래커 : 병렬 처리 MapReduce만 지원 Hadoop 2.0 YARN 분산 컴퓨팅 시스템 세부 리소스 관리 가능한 범용 컴퓨팅 프레임워크 리소스 매니저 및 노드 매니저, 컨테이너로 구성 동작 형태 실행 코..

dbt 소개 및 설치

강의 dbt "DBT"(Data Build Tool)은 ELT용 오픈소스 입니다. 데이터 웨어하우스 지원 : Redshift, Snowflake, Bigquery, Spark 클라우드 버전 존재 : dbt Cloud dbt 구성 컴포넌트 models 테이블을 티어로 관리 : CTAS, Lineage 트래킹 Table, View, CTE tests snapshots "Fact 테이블"은 분석의 초점이 되는 양적 정보를 포함하는 중앙 테이블 입니다. "Dimension 테이블"은 Fact 테이블에 대한 상세 정보를 제공하는 테이블 입니다. 사용 목적 데이터 변경 사항 이해 및 롤백 가능 데이터간 리니지 확인 가능 데이터 품질 테스트 및 에러 보고 Fact 테이블 증분 로드 (Incremental Update..

Airflow 설치

강의 Airflow 설치 방법 직접 설치 Docker Desktop 사용 git clone https://github.com/yen/airflow-setup.git cd airflow-setup curl -LfO 'https://airflow.apache.org/docs/apache-airflow/2.5.1/docker-compose.yaml' docker-compose -f docker-compose.yaml pull docker-compose -f docker-compose.yaml upc 리눅스 서버 사용 : AWS EC2 및 우분투 20.04 AWS 계정 필요 : Free Tier가 아니므로 비용 발생 고려 Airflow 설치 과정에서 3개의 어카운트가 사용됩니다. ubuntu : 메인 어카운트 ..

Redshift 소개

강의 Redshift Redshift 특징 최소 160GB부터 최대 2PB 용량 처리 가능 OLAP : 응답속도 느림 → 프로덕션 데이터베이스 사용 불가 컬럼 기반 스토리지 : 컬럼별 압축 가능 및 컬럼 추가/삭제 용이 벌크 업데이트 지원 : S3로 파일 복사 → COPY로 Redshift에 일괄 복사 고정 용량/비용 옵션 및 가변 비용 옵션 제공 데이터 공유(Datashare) 가능 Primary key 유일성 보장 불가 Postgresql 8.x 및 SQL 호환 Redshift 스케일링 방식 "Resizing"은 용량이 부족해질 때마다 새로운 노드를 추가하는 스케일링 방식입니다. Auto Scaling 옵션으로 설정하여 자동 실행할 수 있습니다. Redshift의 가변비용 옵션으로 Redshift S..