'_실습' 태그의 글 목록 (2 Page)

_실습 18

실습 실습 1. 총 매출이 가장 많은 사용자 10명 찾기 테이블을 데이터프레임으로 로딩 데이터프레임별 테이블 이름 지정 !cd /usr/local/lib/python3.8/dist-packages/pyspark/jars && wget https://s3.amazonaws.com/redshift-downloads/drivers/jdbc/1.2.20.1043/RedshiftJDBC42-no-awssdk-1.2.20.1043.jar from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL #1") \ .getOrCreate() # Redshift와 연결 및 DataFrame으로 로딩하기 url..

데브코스 TIL/빅데이터, 스트리밍 데이터 처리 2024.01.17

Spark 프로그래밍 실습 5

실습 실습 5. Redshift 연결해보기 테이블을 Redshift에서 Spark로 로드 DataFrame, SparkSQL 사용해서 조인 MAU(Monthly Active User) 계산 # JDBC Redshift Driver 다운로드 경로 설정 !cd /usr/local/lib/python3.8/dist-packages/pyspark/jars && wget https://s3.amazonaws.com/redshift-downloads/drivers/jdbc/1.2.20.1043/RedshiftJDBC42-no-awssdk-1.2.20.1043.jar from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("PyS..

데브코스 TIL/빅데이터, 스트리밍 데이터 처리 2024.01.17

Spark 프로그래밍 실습 4

실습 실습 4. Stackoverflow 서베이 기반 인기 언어 찾기 입력 데이터 : LanguageHaveWorkedWith, LanguageWantToWorkWith 필드는 ;를 구분자로 사용 별개 레코드로 분리 가장 많이 사용되는 언어 top 50과 가장 많이 쓰고 싶은 언어 top 50 계산 # 파일 다운로드 !wget https://s3-geospatial.s3-us-west-2.amazonaws.com/survey_results_public.csv from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .config("spark.jars", "..

데브코스 TIL/빅데이터, 스트리밍 데이터 처리 2024.01.17

Spark 프로그래밍 실습 3

실습 실습 3. 텍스트를 파싱해서 구조화된 데이터로 변환하기 입력 데이터 : 텍스트 데이터 출력 데이터 : 구조화된 데이터 Regex 이용 # 파일 다운로드 !wget https://s3-geospatial.s3.us-west-2.amazonaws.com/transfer_cost.txt from pyspark.sql import SparkSession from pyspark import SparkConf conf = SparkConf() conf.set("spark.app.name", "PySpark DataFrame #3") conf.set("spark.master", "local[*]") spark = SparkSession.builder\ .config(conf=conf)\ .getOrCreate(..

데브코스 TIL/빅데이터, 스트리밍 데이터 처리 2024.01.17

Spark 프로그래밍 실습 1/2

실습 실습 1. 헤더가 없는 CSV 파일 처리하기 입력 데이터 : 헤더 없는 CSV 파일 데이터에 스키마 지정 SparkConf 사용 measure_type값이 TMIN인 레코드의 stationId별 최소 온도 # 파일 다운로드 !wget https://s3-geospatial.s3-us-west-2.amazonaws.com/1800.csv 판다스 import pandas as pd pd_df = pd.read_csv( "1800.csv", names=["stationID", "date", "measure_type", "temperature"], usecols=[0, 1, 2, 3] ) pd_minTemps = pd_df[pd_df['measure_type'] == "TMIN"] pd_stationTem..

데브코스 TIL/빅데이터, 스트리밍 데이터 처리 2024.01.17

Docker: Airflow 실행

실습 실행 과정 1. airflow-setup Github repo clone git clone https://github.com/learndataeng/learn-airflow.git 2. airflow-setup/yml 다운로드 cd learn-airflow curl -LfO "https://airflow.apache.org/docs/apache-airflow/2.5.1/docker-compose.yaml" 3. docker-compose.yaml version x-airflow-common services postgres redis airflow-webserver airflow-scheduler airflow-worker airflow-trigger airflow-init volumes postgr..

데브코스 TIL/Docker 2023.12.21

1 2 3

프로그래머스 데이터 엔지니어링 데브코스 2기 수강생 입니다

_SparkSQL, _sql, _설치, _Docker, _HTML, _DAG, 프로그래머스, _AWS, _Kafka, _문제풀이, 프로그래머스데브코스데이터엔지니어링, _dbt, _Spark, _redshift, 프로그래머스데브코스, _selenium, _실습, _Airflow, _머신러닝, _소개,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

예니의 코딩일기

_실습 18

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역