프로그래머스 152

빅데이터 소개

강의 빅데이터 정의 서버 한대로 처리할 수 없는 규모의 데이터 기존의 소프트웨어로는 처리할 수 없는 규모의 데이터 4V (Volume, Velocity, Variety, Varecity) 예시 디바이스 데이터 모바일 디바이스 스마트 TV 각종 센서 데이터 (IoT 센서) 네트워킹 디바이스 웹 빅데이터 처리 데이터 손실 없이 보관 : 스토리지 분산 시스템 처리 시간 효율성 : 병렬처리 비구조화된 데이터 처리 대용량 분산 시스템 분산 환경 기반 : 다수의 서버 구성에 의 분산 파일 시스템 및 분산 컴퓨팅 시스템 Fault Tolerance : 소수의 서버 고장에도 동작 확장 용이 : Scale Out

End-to-end 데이터 파이프라인 구성하기

주제 구글 트렌드와 네이버 데이터랩을 이용하여 네이버 실시간 검색어 복원하기 구조 데이터 인프라 형성 구글 트렌드의 키워드 추출 네이버 데이터랩을 통해 검색어 순위 및 백분위 횟수 추출 이슈 구글 트렌드 공용 API 존재하지 않음 네이버 데이터랩 금일 데이터 존재하지 않음 키워드 입력 개수 5개 제한 네이버 데이터랩 ID, PASSWORD Variables 설정 전체 및 성별별 데이터 적재 프로젝트 코드 API RAW_CODE.py import os import sys import pandas as pd from pandas import Timestamp from datetime import datetime import urllib.request import json client_id = "id" cli..

데이터 카탈로그

강의 데이터 카탈로그 "데이터 카탈로그"는 데이터 자산을 효율적으로 관리하는 데이터 자산 메타 정보 중앙 저장 프레임워크 입니다. 반자동화된 메타 데이터 수집 데이터 보안 용이 데이터 오너 : Business 혹은 Technical 표준화된 문서 템플릿 데이터 자산 종류 테이블 대시보드 문서/메세지 (슬랙, JIRA, Github) ML 피쳐 데이터 파이프라인 사용자 (HR 시스템) 주요 기능 주요 데이터 플랫폼 지원 비지니스 용어집 주석/문서/태그 협업 기능 데이터 리니지 데이터 모니터링, 감사, 트레이싱 데이터 추천 기능 데이터 유저 퍼소나

데브코스 TIL 2024.01.05

dbt 기능

강의 Seeds "Seeds"는 다수의 Dimension 테이블을 파일 형태로 데이터웨어하우스에 로드하는 기능 입니다. dbt seed Sources "Sources"는 입력 데이터를 추상화하여 변경처리를 용이하게 하는 기능 입니다. 입력 테이블 별칭 지정 (alias) 최신 레코드 체크 기능 제공 (Freshness) vi sources.yml cd src dbt source freshness Snapshot "Snapshot"은 테이블의 변화를 지속적으로 기록하여 과거 시점으로 돌아가서 테이블을 확인할 수 있는 기능 입니다. Snapshot 처리 방법 snapshot 폴더 환경설정 데이터 소스 조건 만족 확인 : Primary Key 및 Timestamp 존재 여부 변경 감지 기준 설정 dbt sna..

dbt Model

강의 Model "Model"은 ELT 테이블의 기본이 되는 빌딩 블록 입니다. 테이블의 뷰나 CTE의 형태로 존재합니다. Input 입력(raw) 데이터 정의 : CTE 중간(staging, src) 데이터 정의 : View Output 최종(core) 데이터 정의 : Table # model 빌딩 dbt compile dbt run Materialization "Materialization"은 입력 데이터를 연결하여 새로운 데이터를 생성하는 것을 말합니다. Materialization 종류 View : 데이터를 자주 사용하지 않는 경우 Table : 데이터를 반복해서 자주 사용하는 경우 Incremental : Fact 테이블 혹은 과거 레코드를 수정할 필요가 없는 경우 Ephemeral (CTE) ..