'_Spark' 태그의 글 목록 (2 Page)

_Spark 17

강의 카탈로그 "카탈로그"는 테이블과 뷰에 관한 메타 데이터를 관리합니다. 메모리 기반 카탈로그 기본 Hive 호환 카탈로그 제공 : Persistent 데이터베이스를 통해 테이블을 폴더 구조로 관리 테이블 종류 메모리 기반 테이블/뷰 임시 테이블 스토리지 기반 테이블 HDFS Parquet 포맷 사용 Hive 호환 메타스토어 사용 테이블 종류 Managed Table : 실제 데이터 및 메타 데이터 관리 Unmanaged(External) Table : 메타 데이터 관리 Hive 메타 스토어 구현 스토리지 기반 카탈로그 SparkSession 생성시 enableHiveSupport() 호출 default 데이터베이스 생성 Managed Table 테이블 생성 daaframe.saveAsTable(tab..

데브코스 TIL/빅데이터, 스트리밍 데이터 처리 2024.01.17

Spark SQL 실습 3

실습 실습 3. 사용자별로 처음 채널과 마지막 채널 알아내기 테이블을 데이터프레임으로 로딩 데이터프레임별 테이블 이름 지정 !cd /usr/local/lib/python3.8/dist-packages/pyspark/jars && wget https://s3.amazonaws.com/redshift-downloads/drivers/jdbc/1.2.20.1043/RedshiftJDBC42-no-awssdk-1.2.20.1043.jar from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL #1") \ .getOrCreate() # Redshift와 연결 및 DataFrame으로 로딩하기 u..

데브코스 TIL/빅데이터, 스트리밍 데이터 처리 2024.01.17

Spark SQL 실습 2

실습 실습 2. 월별 채널별 매출과 방문자 정보 계산하기 테이블을 데이터프레임으로 로딩 데이터프레임별 테이블 이름 지정 !cd /usr/local/lib/python3.8/dist-packages/pyspark/jars && wget https://s3.amazonaws.com/redshift-downloads/drivers/jdbc/1.2.20.1043/RedshiftJDBC42-no-awssdk-1.2.20.1043.jar from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL #1") \ .getOrCreate() # Redshift와 연결 및 DataFrame으로 로딩하기 url..

카테고리 없음 2024.01.17

Spark SQL 실습 1

실습 실습 1. 총 매출이 가장 많은 사용자 10명 찾기 테이블을 데이터프레임으로 로딩 데이터프레임별 테이블 이름 지정 !cd /usr/local/lib/python3.8/dist-packages/pyspark/jars && wget https://s3.amazonaws.com/redshift-downloads/drivers/jdbc/1.2.20.1043/RedshiftJDBC42-no-awssdk-1.2.20.1043.jar from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL #1") \ .getOrCreate() # Redshift와 연결 및 DataFrame으로 로딩하기 url..

데브코스 TIL/빅데이터, 스트리밍 데이터 처리 2024.01.17

Spark SQL 소개

강의 Spark SQL "Spark SQL"은 구조화된 데이터 처리를 위한 Spark 모듈 입니다. 데이터프레임에 테이블 이름을 지정하여 sql 함수 사용 HQL(Hive Query Language)와 호환 가능 가독성 용이 및 다수의 사람이 사용 가능 최적화 적절 포팅 및 접근권한 체크 용이 사용 방법 데이터프레임 기반 테이블 뷰 생성 createOrReplaceTempView : Spark Session이 존재하는 동안 존재 createOrReplaceGlobalTempView : Spark 드라이버가 존재하는 동안 존재 Spark Session의 sql 함수로 SQL 결과를 데이터프레임으로 저장 함수 Aggregation Group by : SUM, MIN, MAX, AVG, COUNT Window..

데브코스 TIL/빅데이터, 스트리밍 데이터 처리 2024.01.17

Spark 프로그래밍 실습 5

실습 실습 5. Redshift 연결해보기 테이블을 Redshift에서 Spark로 로드 DataFrame, SparkSQL 사용해서 조인 MAU(Monthly Active User) 계산 # JDBC Redshift Driver 다운로드 경로 설정 !cd /usr/local/lib/python3.8/dist-packages/pyspark/jars && wget https://s3.amazonaws.com/redshift-downloads/drivers/jdbc/1.2.20.1043/RedshiftJDBC42-no-awssdk-1.2.20.1043.jar from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("PyS..

데브코스 TIL/빅데이터, 스트리밍 데이터 처리 2024.01.17

1 2 3

프로그래머스 데이터 엔지니어링 데브코스 2기 수강생 입니다

_HTML, _Docker, _소개, _DAG, _Spark, 프로그래머스데브코스데이터엔지니어링, 프로그래머스데브코스, _sql, _selenium, _실습, _Airflow, _머신러닝, 프로그래머스, _redshift, _AWS, _Kafka, _dbt, _설치, _SparkSQL, _문제풀이,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

예니의 코딩일기

_Spark 17

티스토리툴바