프로그래머스데브코스 152

기초 확률

강의 확률 "표본집합"은 실험의 결과로 발생하는 모든 결과의 집합 입니다. "확률"은 집합의 부분집합을 실수값에 대응시키는 함수 입니다. 확률변수 "확률변수"(Random Variable)은 표본집합의 원소를 실수갑에 대응시키는 함수 입니다. "연속확률변수"(Continuous Random Variable)은 누적분포함수를 가진 확률변수에 대해 다음 식을 만족하는 확률밀도함수가 존재하는 확률변수 입니다. 확률변수 성질 덧셈법칙(Sum Rule) 곱셈법칙(Product Rule) 베이즈 확률(Bayes) 사후확률(Posterior) 사전확률(Prior) 가능도 혹은 우도(Likelihood) 경계확률(Nomalization) 기댓값과 분산 "기댓값"(Expectation)은 확률분포 하에서 함수의 평균값 ..

기초 선형대수

강의 기본 표기법 벡터 import numpy as np x = np.array(list) 행렬 import numpy as np A = np.array([ list1, list2 ... ]) 행렬의 곱셈 벡터 X 벡터 import numpy as np # 내적 x = np.array(list1) y = np.array(list2) x.dot(y) # 외적 x = np.expand_dims(x, axis=1) y = np.expand_dims(y, axis=0) np.matmul(x,y) 행렬 X 벡터 행렬 X 행렬 특수 행렬 정방행렬(Square Matrix) : 행과 열의 개수 동일 상삼각행렬(Upper Triangular Matrix) : 주대각선 아래 원소의 값이 모두 0인 정방행렬 하삼각행렬(L..

머신러닝 소개

강의 Machine Learing "Machine Learning"은 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘 연구 입니다. "Test Dataset"은 모델 평가를 위한 별도의 데이터 입니다. 학습 종류 지도 학습(Supervised Learning) : 목표값(Target)이 주어진 경우 분류(Classfication) : 목표값이 이산적인 경우 회귀(Regression) : 목표값이 연속적인 경우 비지도 학습(Unsupervised Learning) : 목표값(Target)이 없는 경우 군집(Clustering) 이론 확률 이론(Probability Theory) : 예측값의 불확실성을 정량적으로 표현할 수 있는 수학적인 프레임워크 결정 이론(Decision Theory) : 최적의 예측을 수..

Kafka & Spark Streaming 연동 실습

실습 fake_people 토픽의 title top 10 계산하기 spark.jars.packages 설정 spark-defaults.conf 파일 수정 SparkSession 생성시 config 지정 spark-submit 실행시 --packages 옵션 사용 # kafka_source_streaming.py from pyspark.sql import SparkSession from pyspark.sql.functions import from_json, col, expr from pyspark.sql.types import StructType, StructField, StringType, LongType, DoubleType, IntegerType, ArrayType if __name__ == "__m..

Spark Streaming 소개 및 실습

강의 Spark Streaming "Spark Streaming"는 실시간 데이터 스트림 처리를 위한 Spark API 입니다. 데이터 소스 : Kafk, Kinesis, Flume, TCP 소켓 고급 함수 사용 : Join, Map, Reduce, Window 웹 UI : localhost:4040 동작 방식 마이크로 배치로 데이터 처리 루프 새로운 데이터를 이전 데이터에 Merge 혹은 Replace 데이터 위치 관리 실패시 Fault Tolerance 및 데이터 재처리 관리 최종 결과 스트림 일괄 생성 : Spark Engine DStream RDD 기반 Spark SQL 엔진의 최적화 기능 사용 불가 이벤트 발생 시간 기반 처리 불가 Structured Streaming DataFrame 기반 C..