'_SparkSession' 태그의 글 목록

Spark 데이터 처리

강의 데이터 시스템 구조 데이터 병렬처리 데이터 분산 필요 : Partition (128MB) 각각 따로 및 동시 처리 필요 : 파티션 단위로 메모리 로드 및 Executor 배정 데이터 처리 흐름 Spark에서 "데이터프레임"은 다수의 작은 파티션으로 구성되어 있으며 수정이 불가(Immutable)합니다. "셔플링"은 파티션 간에 데이터 이동이 필요한 경우에 발생합니다. 명시적 파티션을 새롭게 하는 경우 : 파티션 수 변경 시스템에 의해 이뤄지는 셔플링 : aggregation, sorting 셔플링이 발생할 때 네트워크를 타고 데이터가 이동합니다. 결과 파티션 수 spark.sql.shuffle.partitions이 결정 오퍼레이션에 따라 결정 : random, hashing partitions, r..

데브코스 TIL/빅데이터, 스트리밍 데이터 처리 2024.01.17

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

예니의 코딩일기

_SparkSession 1

티스토리툴바