Kafka & Spark Streaming 연동 실습

데브코스 TIL/빅데이터, 스트리밍 데이터 처리

Kafka & Spark Streaming 연동 실습

예니ㅣ 2024. 1. 29. 13:10

실습

fake_people 토픽의 title top 10 계산하기

spark.jars.packages 설정
- spark-defaults.conf 파일 수정
- SparkSession 생성시 config 지정
- spark-submit 실행시 --packages 옵션 사용

# kafka_source_streaming.py

from pyspark.sql import SparkSession
from pyspark.sql.functions import from_json, col, expr
from pyspark.sql.types import StructType, StructField, StringType, LongType, DoubleType, IntegerType, ArrayType


if __name__ == "__main__":
    spark = SparkSession \
        .builder \
        .appName("File Streaming Demo") \
        .master("local[3]") \
        .config("spark.streaming.stopGracefullyOnShutdown", "true") \
        .getOrCreate()

    schema = StructType([
        StructField("id", StringType()),
        StructField("name", StringType()),
        StructField("title", StringType())
    ])

    kafka_df = spark.readStream \
        .format("kafka") \
        .option("kafka.bootstrap.servers", "localhost:9092") \
        .option("subscribe", "fake_people") \
        .option("startingOffsets", "earliest") \
        .load()
    kafka_df.printSchema()
    """
    |-- key: binary (nullable = true)
    |-- value: binary (nullable = true)
    |-- topic: string (nullable = true)
    |-- partition: integer (nullable = true)
    |-- offset: long (nullable = true)
    |-- timestamp: timestamp (nullable = true)
    |-- timestampType: integer (nullable = true)
    """
    value_df = kafka_df.select(from_json(col("value").cast("string"), schema).alias("value"))
    value_df.createOrReplaceTempView("fake_people")
    value_df.printSchema()
    count_df = spark.sql("SELECT value.title, COUNT(1) count FROM fake_people GROUP BY 1 ORDER BY 2 DESC LIMIT 10")

    count_writer_query = count_df.writeStream \
        .format("console") \
        .outputMode("complete") \
        .option("checkpointLocation", "chk-point-dir-json") \
        .start()

    print("Listening to Kafka")
    count_writer_query.awaitTermination()

spark-shell
    spark-submit --packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.3.1 kafka_source_streaming.py

저작자표시 (새창열림)

'데브코스 TIL > 빅데이터, 스트리밍 데이터 처리' 카테고리의 다른 글

Spark Streaming 소개 및 실습 (0)	2024.01.29
Kafka ksqlDB (0)	2024.01.25
Kafka 프로그래밍 실습 (0)	2024.01.25
Kafka 프로그래밍 (0)	2024.01.24
Kafka 설치 (0)	2024.01.24

현재글Kafka & Spark Streaming 연동 실습

프로그래머스 데이터 엔지니어링 데브코스 2기 수강생 입니다

_HTML, _머신러닝, _dbt, _Docker, _SparkSQL, _sql, _설치, _Spark, _Kafka, _DAG, _AWS, _redshift, 프로그래머스데브코스데이터엔지니어링, _Airflow, _소개, _실습, 프로그래머스데브코스, _문제풀이, 프로그래머스, _selenium,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

예니의 코딩일기

Kafka & Spark Streaming 연동 실습

실습

fake_people 토픽의 title top 10 계산하기

'데브코스 TIL > 빅데이터, 스트리밍 데이터 처리' 카테고리의 다른 글

'데브코스 TIL/빅데이터, 스트리밍 데이터 처리'의 다른글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

Kafka & Spark Streaming 연동 실습

실습

fake_people 토픽의 title top 10 계산하기

'데브코스 TIL > 빅데이터, 스트리밍 데이터 처리' 카테고리의 다른 글

'데브코스 TIL/빅데이터, 스트리밍 데이터 처리'의 다른글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역