강의
Machine Learing
"Machine Learning"은 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘 연구 입니다.
"Test Dataset"은 모델 평가를 위한 별도의 데이터 입니다.
학습 종류
- 지도 학습(Supervised Learning) : 목표값(Target)이 주어진 경우
- 분류(Classfication) : 목표값이 이산적인 경우
- 회귀(Regression) : 목표값이 연속적인 경우
- 비지도 학습(Unsupervised Learning) : 목표값(Target)이 없는 경우
- 군집(Clustering)
이론
- 확률 이론(Probability Theory) : 예측값의 불확실성을 정량적으로 표현할 수 있는 수학적인 프레임워크
- 결정 이론(Decision Theory) : 최적의 예측을 수행할 수 있는 방법론
"오차 함수"(Error Function)은 모델의 품질을 수치화하여 나타내는 함수 입니다.
"일반화"(Generalization)은 모델에서 이전에 접하지 못한 새로운 데이터에 대해 올바른 예측을 수행하는 역량 입니다.
오류
- 과소적합(Under-fitting)
- 과대적합(Over-fitting)
머신러닝 프로젝트 과정
- 큰 그림 확인
- 문제 정의
- 성능 측정 지표 선택
- 데이터 수집
- Test Dataset & Train Dataset
- 데이터 탐색 및 시각화
- 머신러닝 알고리즘 데이터 처리
- 데이터 정제
- 변환 파이프라인 구성
- 모델 선택 및 훈련
- 교차 검증
- 모델 상세 조정
- 그리드 탐색 혹은 랜덤 탐색
- 특성 중요도, 에러 분석
- 솔루션 제시
- 시스템 론칭 및 모니터링, 유지 보수
'데브코스 TIL > Machine Learning' 카테고리의 다른 글
기초 확률 분포 (0) | 2024.01.31 |
---|---|
기초 확률 (0) | 2024.01.31 |
기초 선형대수 (0) | 2024.01.30 |