_Spark 17

Spark 프로그래밍 실습 4

실습 실습 4. Stackoverflow 서베이 기반 인기 언어 찾기 입력 데이터 : LanguageHaveWorkedWith, LanguageWantToWorkWith 필드는 ;를 구분자로 사용 별개 레코드로 분리 가장 많이 사용되는 언어 top 50과 가장 많이 쓰고 싶은 언어 top 50 계산 # 파일 다운로드 !wget https://s3-geospatial.s3-us-west-2.amazonaws.com/survey_results_public.csv from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .config("spark.jars", "..

Spark 프로그래밍 실습 3

실습 실습 3. 텍스트를 파싱해서 구조화된 데이터로 변환하기 입력 데이터 : 텍스트 데이터 출력 데이터 : 구조화된 데이터 Regex 이용 # 파일 다운로드 !wget https://s3-geospatial.s3.us-west-2.amazonaws.com/transfer_cost.txt from pyspark.sql import SparkSession from pyspark import SparkConf conf = SparkConf() conf.set("spark.app.name", "PySpark DataFrame #3") conf.set("spark.master", "local[*]") spark = SparkSession.builder\ .config(conf=conf)\ .getOrCreate(..

Spark 프로그래밍 실습 1/2

실습 실습 1. 헤더가 없는 CSV 파일 처리하기 입력 데이터 : 헤더 없는 CSV 파일 데이터에 스키마 지정 SparkConf 사용 measure_type값이 TMIN인 레코드의 stationId별 최소 온도 # 파일 다운로드 !wget https://s3-geospatial.s3-us-west-2.amazonaws.com/1800.csv 판다스 import pandas as pd pd_df = pd.read_csv( "1800.csv", names=["stationID", "date", "measure_type", "temperature"], usecols=[0, 1, 2, 3] ) pd_minTemps = pd_df[pd_df['measure_type'] == "TMIN"] pd_stationTem..

Spark 설치 및 테스트

강의 Spark 설치 구글 Colab PySpark 및 Py4J 패키지 사용 !pip install pyspark==3.3.1 py4j==0.10.9.5 from pyspark.sql import SparkSession spark = SparkSession.builder\ .master("local[*]")\ .appName('PySpark Tutorial')\ .getOrCreate() spark Local Standalone Spark Z쉘 사용 기본 JDK8/11 필요 JAVA_HOME 환경변수 ~/.zshrc에 등록 Spark 다운로드 java -version /usr/libexec/java_home export JAVA_HOME= 디렉토리 경로 echo $JAVA_HOME vi ~/.zshrc ..

Spark 소개

강의 Spark 메모리 기반 혹은 디스크 사용 다수의 분산 컴퓨팅 환경 지원 : YARN, K8s, Mesos 판다스 데이터프레임과 유사 다양한 방식의 컴퓨팅 지원 : 배치 데이터, 스트림 데이터, SQL, 머신러닝, 그래프 분석 Spark 3.0 구성 Spark Core Spark SQL Spark ML Spark MLlib Spark Streaming Spark GraphX 모듈 API RDD (Resilient Distributed Dataset) : 세밀한 제어 가능 → 코딩 복잡도 증가 DataFrame & Dataset : 하이레벨 프로그래밍 API. Spark SQL 혹은 Spark ML 사용 Spark SQL SQL을 이용하여 구조화된 데이터 처리 Hive 쿼리보다 최대 100배 빠른 성능..