예니의 코딩일기

  • 홈
  • 태그
  • 방명록

_SparkSession 1

Spark 데이터 처리

강의 데이터 시스템 구조 데이터 병렬처리 데이터 분산 필요 : Partition (128MB) 각각 따로 및 동시 처리 필요 : 파티션 단위로 메모리 로드 및 Executor 배정 데이터 처리 흐름 Spark에서 "데이터프레임"은 다수의 작은 파티션으로 구성되어 있으며 수정이 불가(Immutable)합니다. "셔플링"은 파티션 간에 데이터 이동이 필요한 경우에 발생합니다. 명시적 파티션을 새롭게 하는 경우 : 파티션 수 변경 시스템에 의해 이뤄지는 셔플링 : aggregation, sorting 셔플링이 발생할 때 네트워크를 타고 데이터가 이동합니다. 결과 파티션 수 spark.sql.shuffle.partitions이 결정 오퍼레이션에 따라 결정 : random, hashing partitions, r..

데브코스 TIL/빅데이터, 스트리밍 데이터 처리 2024.01.17
이전
1
다음
더보기
프로필사진

프로그래머스 데이터 엔지니어링 데브코스 2기 수강생 입니다

  • 전체보기 (153)
    • 데브코스 TIL (152)
      • [프로젝트] (3)
      • Python (1)
      • 자료구조, 알고리즘 (26)
      • HTML, CSS (2)
      • Web Scrapping (15)
      • Django, API (7)
      • SQL (6)
      • AWS 클라우드 (17)
      • 데이터 파이프라인, Airflow (17)
      • Docker (9)
      • DBT (4)
      • 빅데이터, 스트리밍 데이터 처리 (32)
      • Machine Learning (4)

Tag

_sql, _AWS, _dbt, _selenium, _Spark, _redshift, _Airflow, _Docker, 프로그래머스데브코스, _Kafka, _HTML, 프로그래머스데브코스데이터엔지니어링, _문제풀이, _SparkSQL, _소개, _DAG, 프로그래머스, _실습, _머신러닝, _설치,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/10   »
일 월 화 수 목 금 토
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바