_SparkSQL 4

Spark SQL 실습 3

실습 실습 3. 사용자별로 처음 채널과 마지막 채널 알아내기 테이블을 데이터프레임으로 로딩 데이터프레임별 테이블 이름 지정 !cd /usr/local/lib/python3.8/dist-packages/pyspark/jars && wget https://s3.amazonaws.com/redshift-downloads/drivers/jdbc/1.2.20.1043/RedshiftJDBC42-no-awssdk-1.2.20.1043.jar from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL #1") \ .getOrCreate() # Redshift와 연결 및 DataFrame으로 로딩하기 u..

Spark SQL 실습 2

실습 실습 2. 월별 채널별 매출과 방문자 정보 계산하기 테이블을 데이터프레임으로 로딩 데이터프레임별 테이블 이름 지정 !cd /usr/local/lib/python3.8/dist-packages/pyspark/jars && wget https://s3.amazonaws.com/redshift-downloads/drivers/jdbc/1.2.20.1043/RedshiftJDBC42-no-awssdk-1.2.20.1043.jar from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL #1") \ .getOrCreate() # Redshift와 연결 및 DataFrame으로 로딩하기 url..

카테고리 없음 2024.01.17

Spark SQL 실습 1

실습 실습 1. 총 매출이 가장 많은 사용자 10명 찾기 테이블을 데이터프레임으로 로딩 데이터프레임별 테이블 이름 지정 !cd /usr/local/lib/python3.8/dist-packages/pyspark/jars && wget https://s3.amazonaws.com/redshift-downloads/drivers/jdbc/1.2.20.1043/RedshiftJDBC42-no-awssdk-1.2.20.1043.jar from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL #1") \ .getOrCreate() # Redshift와 연결 및 DataFrame으로 로딩하기 url..

Spark SQL 소개

강의 Spark SQL "Spark SQL"은 구조화된 데이터 처리를 위한 Spark 모듈 입니다. 데이터프레임에 테이블 이름을 지정하여 sql 함수 사용 HQL(Hive Query Language)와 호환 가능 가독성 용이 및 다수의 사람이 사용 가능 최적화 적절 포팅 및 접근권한 체크 용이 사용 방법 데이터프레임 기반 테이블 뷰 생성 createOrReplaceTempView : Spark Session이 존재하는 동안 존재 createOrReplaceGlobalTempView : Spark 드라이버가 존재하는 동안 존재 Spark Session의 sql 함수로 SQL 결과를 데이터프레임으로 저장 함수 Aggregation Group by : SUM, MIN, MAX, AVG, COUNT Window..