전체보기 153

데이터 파이프라인 소개

강의 "데이터 파이프라인"은 데이터를 소스로부터 목적지로 복사하는 작업 입니다. 대부분의 경우 코딩(파이썬 혹은 스칼라) 혹은 SQL을 통해 데이터 웨어하우스로 복사합니다. 데이터 소스 Click stream call data ads performance data transactions sensor dat metadata API log files 데이터 목적지 데이터 웨어하우스 캐시 시스템 (Redis, Memcache) 프로덕션 데이터베이스 NoSQL S3 데이터 파이프라인 종류 Raw Data ETL Jobs 데이터 엔지니어가 수행하는 작업 입니다. 외부 및 내부 데이터 소스에서 데이터 추출 (API) 적당한 데이터 포맷 변환 (데이터 크기가 크면 Spark 사용) 데이터 웨어하우스 로드 Summar..

데이터 웨어하우스를 이용한 대시보드 구성

프로젝트 기획 주제 농산물 가격 데이터를 통한 물가 변동 조회 구조 API 데이터 수집 S3 버킷 생성 및 API 연동 Snowflake 생성 및 S3 벌크 업데이트 Snowflake Summary 생성 Superset 대시보드 생성 프로젝트 코드 RAW_DATA 전처리 UPDATE dev.raw_data.test_data SET TS = TO_DATE(TS, 'YYYY/MM/DD') WHERE TS LIKE '%/%' ; SELECT * FROM dev.raw_data.test_data ORDER BY TS DESC ; 사용할 데이터로 테이블 생성 CREATE or replace TABLE dev.raw_data.today_data AS SELECT * FROM raw_data.test_data TD ..

BI 대시보드

강의 시각화 툴 "시각화 툴"은 대시보드 혹은 BI(Business Intelligence)툴이라고 부릅니다. KPI(Key Performance Indicator), 지표, 데이터 포인트를 데이터 기반(Data-Driven)으로 계산/분석/표시해주는 툴 입니다. 시각화 툴 종류 Looker 혹은 Tableau를 많이 사용하는 추세 입니다. Excel, Google Spreadsheet Python Looker LookML : 자체언어로 데이터 모델 생성 내부 및 외부 고객을 위한 대시보드 작성 가능 생성 후 수정 용이 정보 과부하 문제 가능성 Tableau 초기 사용이 어렵지만 강력한 대시보드 작성 가능 Power BI Apache Surperset Mode Analytics KPI 대시보드보다 EDA..

데브코스 TIL 2023.12.01

Snowflake 운영과 관리

강의 Snowflake "Snowflake"는 클라우드 기반 데이터 웨어하우스에서 시작되어 현재는 데이터 클라우드로 발전하였습니다. AWS, GCP, Azure 등의 글로벌 클라우드 위에서 모두 동작하는 멀티 클라우드 입니다. Snowflake 특징 스토리지와 컴퓨팅 인프라 별도 설정 → 가변 비용 모델 SQL 기반 빅데이터 저장, 처리, 분석 가능 비구조화된 데이터 처리 및 머신러인 기능 제공 배치 데이터 및 실시간 데이터 처리 지원 Time Travel : 과거 데이터 쿼리 기능 → 트렌드 분석 용이 웹 콘솔 및 Python API 이용 가능 ODBC/JDBC 연결 지원 클라우드 스토리지를 외부 테이블로 사용 가 타지역에 데이터 공유(Cross-Region Replication) 기능 지원 계정 구성..

데브코스 TIL 2023.11.30

AWS SageMaker

강의 AWS SageMaker "AWS SageMaker"는 머신러닝 모델 개발을 처음부터 끝까지 해결해주는 AWS 서비스 입니다. Tensorflow/Keras, PyTorch, MXNet 등 머신러닝 프레임워크를 지원합니다. 자체 SageMaker 모듈로 머신러닝 모델 훈련이 가능합니다. 개발하기 위해서 SageMaker Studio 혹은 Python Notebook을 이용할 수 있습니다. 기능 트레이닝 셋 준비 모델 훈련 모델 검증 모델 배포와 관리 "AutoPilot"을 이용하면 훈련용 데이터 셋에 대한 코딩 없이 모델 훈련이 가능합니다. 데이터 분석(EDA; Exploratory Data Analysis) 수행 머신 러닝 모델 생성 및 훈련, 테스트, 테스트 결과 기록 모델개발 속도 단축 API..