DEV_희쨔응
pySpark ( Postgresql to MariaDB ) 본문
개발 서버에 스파크(Pyspark)를 이용하여 다른 RDB 간의 테이블 데이터를 옮기는 파이프라인을 구성하였습니다.
Pyspark 에서는 해당 테이블의 View를 구성하여 select, join, group by 등의 SQL을 사용하여 데이터를 필터링 할 수 있습니다.
Postgresql_to_MariaDB
import pyspark
from pyspark.sql import SparkSession
ip = "10.65.41.141"
port = 5432
user = "isharkk"
passwd = "rplinux"
db = "testt"
sp = pyspark.sql.SparkSession \
.builder \
.config("spark.driver.extraClassPath", "/root/spark-3.2.2-bin-hadoop3/jars/postgresql-42.5.4.jar") \
.getOrCreate()
query = sp.read.format("jdbc")\
.option("url","jdbc:postgresql://10.65.41.141:5432/testt") \
.option("driver", "org.postgresql.Driver") \
.option("dbtable", "ishark.fps") \
.option("user", "isharkk") \
.option("password", "rplinux") \
.load()
query.show()
query1 = query.write.format("jdbc")\
.option("url","jdbc:mariadb://10.65.41.140:3306/test") \
.option("driver", "org.mariadb.jdbc.Driver") \
.option("dbtable", "post_spark") \
.option("user", "root") \
.option("password", " ") \
.save()
> Postgresql 테이블
>MariaDB 테이블
postgresql 의 테이블 데이터를 정상적으로 받아온 것을 확인할 수 있습니다.
'Hadoop > Spark' 카테고리의 다른 글
Spark Producer(Hadoop to Kafka) (0) | 2023.03.14 |
---|---|
pySpark ( MariaDB to Hadoop ) (0) | 2023.03.14 |
pySpark( File(csv) to Postgresql ) (0) | 2023.03.14 |
Spark consumer(Kafka to Hadoop) (1) | 2023.02.16 |
Spark & Zeppelin (0) | 2022.09.30 |
Comments