_데이터파이프라인 2

End-to-end 데이터 파이프라인 구성하기

주제 구글 트렌드와 네이버 데이터랩을 이용하여 네이버 실시간 검색어 복원하기 구조 데이터 인프라 형성 구글 트렌드의 키워드 추출 네이버 데이터랩을 통해 검색어 순위 및 백분위 횟수 추출 이슈 구글 트렌드 공용 API 존재하지 않음 네이버 데이터랩 금일 데이터 존재하지 않음 키워드 입력 개수 5개 제한 네이버 데이터랩 ID, PASSWORD Variables 설정 전체 및 성별별 데이터 적재 프로젝트 코드 API RAW_CODE.py import os import sys import pandas as pd from pandas import Timestamp from datetime import datetime import urllib.request import json client_id = "id" cli..

데이터 파이프라인 소개

강의 "데이터 파이프라인"은 데이터를 소스로부터 목적지로 복사하는 작업 입니다. 대부분의 경우 코딩(파이썬 혹은 스칼라) 혹은 SQL을 통해 데이터 웨어하우스로 복사합니다. 데이터 소스 Click stream call data ads performance data transactions sensor dat metadata API log files 데이터 목적지 데이터 웨어하우스 캐시 시스템 (Redis, Memcache) 프로덕션 데이터베이스 NoSQL S3 데이터 파이프라인 종류 Raw Data ETL Jobs 데이터 엔지니어가 수행하는 작업 입니다. 외부 및 내부 데이터 소스에서 데이터 추출 (API) 적당한 데이터 포맷 변환 (데이터 크기가 크면 Spark 사용) 데이터 웨어하우스 로드 Summar..