_Superset 3

End-to-end 데이터 파이프라인 구성하기

주제 구글 트렌드와 네이버 데이터랩을 이용하여 네이버 실시간 검색어 복원하기 구조 데이터 인프라 형성 구글 트렌드의 키워드 추출 네이버 데이터랩을 통해 검색어 순위 및 백분위 횟수 추출 이슈 구글 트렌드 공용 API 존재하지 않음 네이버 데이터랩 금일 데이터 존재하지 않음 키워드 입력 개수 5개 제한 네이버 데이터랩 ID, PASSWORD Variables 설정 전체 및 성별별 데이터 적재 프로젝트 코드 API RAW_CODE.py import os import sys import pandas as pd from pandas import Timestamp from datetime import datetime import urllib.request import json client_id = "id" cli..

데이터 웨어하우스를 이용한 대시보드 구성

프로젝트 기획 주제 농산물 가격 데이터를 통한 물가 변동 조회 구조 API 데이터 수집 S3 버킷 생성 및 API 연동 Snowflake 생성 및 S3 벌크 업데이트 Snowflake Summary 생성 Superset 대시보드 생성 프로젝트 코드 RAW_DATA 전처리 UPDATE dev.raw_data.test_data SET TS = TO_DATE(TS, 'YYYY/MM/DD') WHERE TS LIKE '%/%' ; SELECT * FROM dev.raw_data.test_data ORDER BY TS DESC ; 사용할 데이터로 테이블 생성 CREATE or replace TABLE dev.raw_data.today_data AS SELECT * FROM raw_data.test_data TD ..

BI 대시보드

강의 시각화 툴 "시각화 툴"은 대시보드 혹은 BI(Business Intelligence)툴이라고 부릅니다. KPI(Key Performance Indicator), 지표, 데이터 포인트를 데이터 기반(Data-Driven)으로 계산/분석/표시해주는 툴 입니다. 시각화 툴 종류 Looker 혹은 Tableau를 많이 사용하는 추세 입니다. Excel, Google Spreadsheet Python Looker LookML : 자체언어로 데이터 모델 생성 내부 및 외부 고객을 위한 대시보드 작성 가능 생성 후 수정 용이 정보 과부하 문제 가능성 Tableau 초기 사용이 어렵지만 강력한 대시보드 작성 가능 Power BI Apache Surperset Mode Analytics KPI 대시보드보다 EDA..

데브코스 TIL 2023.12.01