Spark SQL 실습 1

데브코스 TIL/빅데이터, 스트리밍 데이터 처리

Spark SQL 실습 1

예니ㅣ 2024. 1. 17. 16:44

실습

실습 1. 총 매출이 가장 많은 사용자 10명 찾기

테이블을 데이터프레임으로 로딩
데이터프레임별 테이블 이름 지정

!cd /usr/local/lib/python3.8/dist-packages/pyspark/jars && wget https://s3.amazonaws.com/redshift-downloads/drivers/jdbc/1.2.20.1043/RedshiftJDBC42-no-awssdk-1.2.20.1043.jar

from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .appName("Python Spark SQL #1") \
    .getOrCreate()

# Redshift와 연결 및 DataFrame으로 로딩하기
url = "jdbc:redshift://learnde.cduaw970ssvt.ap-northeast-2.redshift.amazonaws.com:5439/dev?user=guest&password=Guest1234"

df_user_session_channel = spark.read \
    .format("jdbc") \
    .option("driver", "com.amazon.redshift.jdbc42.Driver") \
    .option("url", url) \
    .option("dbtable", "raw_data.user_session_channel") \
    .load()

df_session_timestamp = spark.read \
    .format("jdbc") \
    .option("driver", "com.amazon.redshift.jdbc42.Driver") \
    .option("url", url) \
    .option("dbtable", "raw_data.session_timestamp") \
    .load()

df_session_transaction = spark.read \
    .format("jdbc") \
    .option("driver", "com.amazon.redshift.jdbc42.Driver") \
    .option("url", url) \
    .option("dbtable", "raw_data.session_transaction") \
    .load()
    
    
df_user_session_channel.createOrReplaceTempView("user_session_channel")
df_session_timestamp.createOrReplaceTempView("session_timestamp")
df_session_transaction.createOrReplaceTempView("session_transaction")

top_rev_user_df = spark.sql("""
    SELECT userid,
        SUM(str.amount) revenue,
        SUM(CASE WHEN str.refunded = False THEN str.amount END) net_revenue
    FROM user_session_channel usc
    JOIN session_transaction str ON usc.sessionid = str.sessionid
    GROUP BY 1
    ORDER BY 2 DESC
    LIMIT 10
    """)
    
top_rev_user_df2 = spark.sql("""
    SELECT
    	userid,
    	SUM(amount) total_amount, 
        	RANK() OVER (ORDER BY SUM(amount) DESC) rank
    FROM session_transaction st
    JOIN user_session_channel usc ON st.sessionid = usc.sessionid
    GROUP BY userid
    ORDER BY rank
    LIMIT 10
""")

저작자표시 (새창열림)

'데브코스 TIL > 빅데이터, 스트리밍 데이터 처리' 카테고리의 다른 글

Hive 메타 스토어 (0)	2024.01.17
Spark SQL 실습 3 (0)	2024.01.17
Spark SQL 소개 (0)	2024.01.17
Spark 프로그래밍 실습 5 (0)	2024.01.17
Spark 프로그래밍 실습 4 (0)	2024.01.17

현재글Spark SQL 실습 1

프로그래머스 데이터 엔지니어링 데브코스 2기 수강생 입니다

_redshift, 프로그래머스데브코스, _HTML, _DAG, _설치, _Spark, 프로그래머스데브코스데이터엔지니어링, _실습, _소개, _SparkSQL, _selenium, _머신러닝, _dbt, _Airflow, _Kafka, _Docker, _sql, 프로그래머스, _문제풀이, _AWS,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

예니의 코딩일기

Spark SQL 실습 1

실습

실습 1. 총 매출이 가장 많은 사용자 10명 찾기

'데브코스 TIL > 빅데이터, 스트리밍 데이터 처리' 카테고리의 다른 글

'데브코스 TIL/빅데이터, 스트리밍 데이터 처리'의 다른글

티스토리툴바

Spark SQL 실습 1

실습

실습 1. 총 매출이 가장 많은 사용자 10명 찾기

'데브코스 TIL > 빅데이터, 스트리밍 데이터 처리' 카테고리의 다른 글

'데브코스 TIL/빅데이터, 스트리밍 데이터 처리'의 다른글

관련글

티스토리툴바