_redshift 4

End-to-end 데이터 파이프라인 구성하기

주제 구글 트렌드와 네이버 데이터랩을 이용하여 네이버 실시간 검색어 복원하기 구조 데이터 인프라 형성 구글 트렌드의 키워드 추출 네이버 데이터랩을 통해 검색어 순위 및 백분위 횟수 추출 이슈 구글 트렌드 공용 API 존재하지 않음 네이버 데이터랩 금일 데이터 존재하지 않음 키워드 입력 개수 5개 제한 네이버 데이터랩 ID, PASSWORD Variables 설정 전체 및 성별별 데이터 적재 프로젝트 코드 API RAW_CODE.py import os import sys import pandas as pd from pandas import Timestamp from datetime import datetime import urllib.request import json client_id = "id" cli..

Redshift 고급 기능

강의 Redshift 권한과 보안 사용자별 혹은 테이블별 권한 설정 하지 않음 스키마별 , 그룹별 혹은 역할별 접근 권한 설정 RBAC(Role Based Access Control) : 한 사용자가 다수의 역할에 포함(Inclusive) 개인정보와 관련된 테이블은 별도 스키마 설정 액세스 권한 부여 스키마, 그룹 혹은 역할에 읽기 및 쓰기 권한을 부여할 수 있습니다. # analytics_users GRANT USAGE ON SCHEMA analytics TO GROUP analytics_users; GRANT ALL ON ALL TABLES IN SCHEMA analytics TO GROUP analytics_users; GRANT ALL ON SCHEMA adhoc TO GROUP analytics..

Redshift 소개

강의 Redshift Redshift 특징 최소 160GB부터 최대 2PB 용량 처리 가능 OLAP : 응답속도 느림 → 프로덕션 데이터베이스 사용 불가 컬럼 기반 스토리지 : 컬럼별 압축 가능 및 컬럼 추가/삭제 용이 벌크 업데이트 지원 : S3로 파일 복사 → COPY로 Redshift에 일괄 복사 고정 용량/비용 옵션 및 가변 비용 옵션 제공 데이터 공유(Datashare) 가능 Primary key 유일성 보장 불가 Postgresql 8.x 및 SQL 호환 Redshift 스케일링 방식 "Resizing"은 용량이 부족해질 때마다 새로운 노드를 추가하는 스케일링 방식입니다. Auto Scaling 옵션으로 설정하여 자동 실행할 수 있습니다. Redshift의 가변비용 옵션으로 Redshift S..

SQL을 이용한 데이터 분석 Day 1 SQL과 데이터베이스 소개

강의 데이터 관련 직군 데이터 엔지니어 SQL, 데이터베이스 ETL/ELT (Airflow, DBT) Spark, Hadoop 데이터 분석가 SQL, 비지니스 도메인에 대한 지식 통계 (AB 테스트 분석) 데이터 과학자 머신러닝 SQL, 파이썬 통계 데이터베이스 "관계형 데이터베이스"는 구조화된 데이터를 저장한 것입니다. 구조화된 데이터 저장 및 질의할 수 있도록 해주는 스토리지 엑셀 스프레드시트 형태의 테이블로 데이터 정의 및 저장 SQL, DDL(Data Definition Language), DML(Data Manipulation Language) 종류 프로덕션 데이터 베이스 MySQL, PostgreSQL, Oracle OLTP(OnLine Transaction Processing) 빠른 속도에 ..