'_SparkSQL' 태그의 글 목록

_SparkSQL 4

실습 실습 3. 사용자별로 처음 채널과 마지막 채널 알아내기 테이블을 데이터프레임으로 로딩 데이터프레임별 테이블 이름 지정 !cd /usr/local/lib/python3.8/dist-packages/pyspark/jars && wget https://s3.amazonaws.com/redshift-downloads/drivers/jdbc/1.2.20.1043/RedshiftJDBC42-no-awssdk-1.2.20.1043.jar from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL #1") \ .getOrCreate() # Redshift와 연결 및 DataFrame으로 로딩하기 u..

데브코스 TIL/빅데이터, 스트리밍 데이터 처리 2024.01.17

Spark SQL 실습 2

실습 실습 2. 월별 채널별 매출과 방문자 정보 계산하기 테이블을 데이터프레임으로 로딩 데이터프레임별 테이블 이름 지정 !cd /usr/local/lib/python3.8/dist-packages/pyspark/jars && wget https://s3.amazonaws.com/redshift-downloads/drivers/jdbc/1.2.20.1043/RedshiftJDBC42-no-awssdk-1.2.20.1043.jar from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL #1") \ .getOrCreate() # Redshift와 연결 및 DataFrame으로 로딩하기 url..

카테고리 없음 2024.01.17

Spark SQL 실습 1

실습 실습 1. 총 매출이 가장 많은 사용자 10명 찾기 테이블을 데이터프레임으로 로딩 데이터프레임별 테이블 이름 지정 !cd /usr/local/lib/python3.8/dist-packages/pyspark/jars && wget https://s3.amazonaws.com/redshift-downloads/drivers/jdbc/1.2.20.1043/RedshiftJDBC42-no-awssdk-1.2.20.1043.jar from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL #1") \ .getOrCreate() # Redshift와 연결 및 DataFrame으로 로딩하기 url..

데브코스 TIL/빅데이터, 스트리밍 데이터 처리 2024.01.17

Spark SQL 소개

강의 Spark SQL "Spark SQL"은 구조화된 데이터 처리를 위한 Spark 모듈 입니다. 데이터프레임에 테이블 이름을 지정하여 sql 함수 사용 HQL(Hive Query Language)와 호환 가능 가독성 용이 및 다수의 사람이 사용 가능 최적화 적절 포팅 및 접근권한 체크 용이 사용 방법 데이터프레임 기반 테이블 뷰 생성 createOrReplaceTempView : Spark Session이 존재하는 동안 존재 createOrReplaceGlobalTempView : Spark 드라이버가 존재하는 동안 존재 Spark Session의 sql 함수로 SQL 결과를 데이터프레임으로 저장 함수 Aggregation Group by : SUM, MIN, MAX, AVG, COUNT Window..

데브코스 TIL/빅데이터, 스트리밍 데이터 처리 2024.01.17

프로그래머스 데이터 엔지니어링 데브코스 2기 수강생 입니다

_문제풀이, _redshift, _dbt, _sql, _Docker, _Airflow, _Spark, _설치, _Kafka, _머신러닝, _HTML, 프로그래머스데브코스, _selenium, _AWS, _소개, 프로그래머스데브코스데이터엔지니어링, _DAG, _실습, _SparkSQL, 프로그래머스,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

예니의 코딩일기

_SparkSQL 4

티스토리툴바