'_소개' 태그의 글 목록

_소개 3

강의 Machine Learing "Machine Learning"은 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘 연구 입니다. "Test Dataset"은 모델 평가를 위한 별도의 데이터 입니다. 학습 종류 지도 학습(Supervised Learning) : 목표값(Target)이 주어진 경우 분류(Classfication) : 목표값이 이산적인 경우 회귀(Regression) : 목표값이 연속적인 경우 비지도 학습(Unsupervised Learning) : 목표값(Target)이 없는 경우 군집(Clustering) 이론 확률 이론(Probability Theory) : 예측값의 불확실성을 정량적으로 표현할 수 있는 수학적인 프레임워크 결정 이론(Decision Theory) : 최적의 예측을 수..

데브코스 TIL/Machine Learning 2024.01.29

Spark Streaming 소개 및 실습

강의 Spark Streaming "Spark Streaming"는 실시간 데이터 스트림 처리를 위한 Spark API 입니다. 데이터 소스 : Kafk, Kinesis, Flume, TCP 소켓 고급 함수 사용 : Join, Map, Reduce, Window 웹 UI : localhost:4040 동작 방식 마이크로 배치로 데이터 처리 루프 새로운 데이터를 이전 데이터에 Merge 혹은 Replace 데이터 위치 관리 실패시 Fault Tolerance 및 데이터 재처리 관리 최종 결과 스트림 일괄 생성 : Spark Engine DStream RDD 기반 Spark SQL 엔진의 최적화 기능 사용 불가 이벤트 발생 시간 기반 처리 불가 Structured Streaming DataFrame 기반 C..

데브코스 TIL/빅데이터, 스트리밍 데이터 처리 2024.01.29

dbt 소개 및 설치

강의 dbt "DBT"(Data Build Tool)은 ELT용 오픈소스 입니다. 데이터 웨어하우스 지원 : Redshift, Snowflake, Bigquery, Spark 클라우드 버전 존재 : dbt Cloud dbt 구성 컴포넌트 models 테이블을 티어로 관리 : CTAS, Lineage 트래킹 Table, View, CTE tests snapshots "Fact 테이블"은 분석의 초점이 되는 양적 정보를 포함하는 중앙 테이블 입니다. "Dimension 테이블"은 Fact 테이블에 대한 상세 정보를 제공하는 테이블 입니다. 사용 목적 데이터 변경 사항 이해 및 롤백 가능 데이터간 리니지 확인 가능 데이터 품질 테스트 및 에러 보고 Fact 테이블 증분 로드 (Incremental Update..

데브코스 TIL/DBT 2024.01.05

프로그래머스 데이터 엔지니어링 데브코스 2기 수강생 입니다

_실습, _AWS, 프로그래머스데브코스데이터엔지니어링, _dbt, _머신러닝, _selenium, _Spark, _Kafka, _Airflow, _설치, 프로그래머스, _DAG, _sql, _문제풀이, _Docker, _소개, _SparkSQL, _redshift, _HTML, 프로그래머스데브코스,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

예니의 코딩일기

_소개 3

티스토리툴바