강의
Spark 설치
구글 Colab
- PySpark 및 Py4J 패키지 사용
!pip install pyspark==3.3.1 py4j==0.10.9.5
from pyspark.sql import SparkSession
spark = SparkSession.builder\
.master("local[*]")\
.appName('PySpark Tutorial')\
.getOrCreate()
spark
Local Standalone Spark
- Z쉘 사용 기본
- JDK8/11 필요
- JAVA_HOME 환경변수 ~/.zshrc에 등록
- Spark 다운로드
java -version
/usr/libexec/java_home
export JAVA_HOME= 디렉토리 경로
echo $JAVA_HOME
vi ~/.zshrc
export JAVA_HOME= 디렉토리 경로
Spark 실행 테스트
자료 구조 변환
# 리스트 -> rdd
rdd = spark.sparkContext.parallelize(list)
rdd.collect()
# 리스트 -> DataFrame
df = spark.createDataFrame(list)
df.select('*').collect()
# rdd -> DataFrame
df = parsed_rdd.toDF()
df.select('*').collect()
# csv -> Spark DataFrame
df = spark.read.option("header", True).csv(csv)
df.show()
group_df = df.groupby(["gender"]).count().collect()
group_df.rdd.getNumPartitions()
group_df.repartition(partitions_num)
# DataFrame을 SparkSQL로 처리
df.createOrReplaceTempView(table_name)
group_df = spark.sql("SELECT field FROM table GROUP BY 1")
spark.catalog.listTables()
'데브코스 TIL > 빅데이터, 스트리밍 데이터 처리' 카테고리의 다른 글
Spark 프로그래밍 실습 3 (0) | 2024.01.17 |
---|---|
Spark 프로그래밍 실습 1/2 (0) | 2024.01.17 |
Spark 데이터 처리 (0) | 2024.01.17 |
Spark 소개 (0) | 2024.01.15 |
Map Reduce 프로그래밍 (0) | 2024.01.15 |