Spark 파일 포맷

데브코스 TIL/빅데이터, 스트리밍 데이터 처리

Spark 파일 포맷

예니ㅣ 2024. 1. 18. 13:46

강의

Spark 파일 포맷

Unstructured : Text
- 눈으로 확인 가능
Semi-structured : JSON, WML, CSV
- 눈으로 확인 가능
Structured : PARQUET, AVRO, ORC, SequenceFile
- 압축된 정보
- 스키마 제공

# 파일 다운로드
!wget https://pyspark-test-sj.s3.us-west-2.amazonaws.com/appl_stock.csv

from pyspark.sql import *
from pyspark.sql.functions import *

if __name__ == "__main__":
    spark = SparkSession \
        .builder \
        .appName("Spark Writing Demo") \
        .master("local[3]") \
        .config("spark.jars.packages", "org.apache.spark:spark-avro_2.12:3.3.1") \
        .getOrCreate()
        
df = spark.read \
    .format("csv") \
    .load("appl_stock.csv")
    
df.write \
    .format("parquet") \
    .mode("overwrite") \
    .option("path", "dataOutput/parquet/") \
    .save()

Parquet

"Parquet"는 Spark의 기본 파일 포맷 입니다.

하나의 데이터 블록 하나의 Row Group으로 구성합니다.

from pyspark.sql import *
from pyspark.sql.functions import *

if __name__ == "__main__":
    spark = SparkSession \
        .builder \
        .appName("Spark Schema Evolution Demo") \
        .master("local[3]") \
        .getOrCreate()
        
df = spark.read. \
    parquet("schema.parquet")
    
df.printSchema()
df.show()

저작자표시 (새창열림)

'데브코스 TIL > 빅데이터, 스트리밍 데이터 처리' 카테고리의 다른 글

Spark 클라우드 (0)	2024.01.22
Spark 내부동작 (0)	2024.01.18
Spark Unit Test (0)	2024.01.17
Hive 메타 스토어 (0)	2024.01.17
Spark SQL 실습 3 (0)	2024.01.17

현재글Spark 파일 포맷

프로그래머스 데이터 엔지니어링 데브코스 2기 수강생 입니다

_설치, _Airflow, _Docker, _소개, 프로그래머스데브코스, _Kafka, _dbt, _문제풀이, _selenium, 프로그래머스, _AWS, _SparkSQL, _sql, _Spark, 프로그래머스데브코스데이터엔지니어링, _실습, _머신러닝, _redshift, _DAG, _HTML,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

예니의 코딩일기

Spark 파일 포맷

강의

Spark 파일 포맷

Parquet

'데브코스 TIL > 빅데이터, 스트리밍 데이터 처리' 카테고리의 다른 글

'데브코스 TIL/빅데이터, 스트리밍 데이터 처리'의 다른글

티스토리툴바

Spark 파일 포맷

강의

Spark 파일 포맷

Parquet

'데브코스 TIL > 빅데이터, 스트리밍 데이터 처리' 카테고리의 다른 글

'데브코스 TIL/빅데이터, 스트리밍 데이터 처리'의 다른글

관련글

티스토리툴바