_클라우드 3

Spark 클라우드

강의 AWS Spark AWS에서 Spark를 실행하기 위해서는 EMR(Elastic MapReduce)를 이용하는 것이 일반적입니다. "EMR"은 Hadoop의 YARN과 유사한 기능을 제공하는 AWS의 서비스 입니다. worker node : EC2 서버 HDFS : S3 실행 과정 AWS EMR 클러스터 생성 옵션 : Spark 실행 m5.xlarge 노드 3개 선택 기본 파일 시스텀 선택 : S3 마스터 노드 포트 번호 22 지정 마스터 노드를 드라이버 노드로 사용 : SSH 이용하여 로그인 PySpark 잡 코드 실행 ssh -i 프라이빗키.pen hadoop@마스터노드호스트이름 spark-submit --master yarn stackoverflow.py # stackoverflow.py fr..

AWS Part 01 클라우드

강의 클라우드 서비스 개요 "클라우드 컴퓨팅"은 IT 리소스를 인터넷을 통해 온디맨드로 제공하고 사용한만큼만 비용을 지불하는 방식 입니다. 물리적으로 데이터 센터와 서버를 구입, 소유 및 유지 관리하는 대신, 클라우드 공급자로부터 필요에 따라 컴퓨팅 파워, 스토리지, 데이터베이스와 같은 기술 서비스에 액세스 할 수 있습니다. 장점 민첩성 탄력성 : 추가/삭제 용이 비용절감 : 사용하지 않는 리소스 반납 가능 On demend 관리 용이성 클라우드 서비스 제품 종류 아마존 AWS(Amazon Wev Services) 마이크로소프트 애저(Azure) 구글 GCP(Google Cloud Platform) 오라클 OCI(Oracle Cloud Insfrastructure) IBM 클라우드 알리바바 클라우드 KT..

SQL을 이용한 데이터 분석 Day 1 SQL과 데이터베이스 소개

강의 데이터 관련 직군 데이터 엔지니어 SQL, 데이터베이스 ETL/ELT (Airflow, DBT) Spark, Hadoop 데이터 분석가 SQL, 비지니스 도메인에 대한 지식 통계 (AB 테스트 분석) 데이터 과학자 머신러닝 SQL, 파이썬 통계 데이터베이스 "관계형 데이터베이스"는 구조화된 데이터를 저장한 것입니다. 구조화된 데이터 저장 및 질의할 수 있도록 해주는 스토리지 엑셀 스프레드시트 형태의 테이블로 데이터 정의 및 저장 SQL, DDL(Data Definition Language), DML(Data Manipulation Language) 종류 프로덕션 데이터 베이스 MySQL, PostgreSQL, Oracle OLTP(OnLine Transaction Processing) 빠른 속도에 ..