pySpark ( Postgresql to MariaDB )

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

DEV_희쨔응

pySpark ( Postgresql to MariaDB ) 본문

Hadoop/Spark

pySpark ( Postgresql to MariaDB )

희쨔응 2023. 3. 14. 15:57

개발 서버에 스파크(Pyspark)를 이용하여 다른 RDB 간의 테이블 데이터를 옮기는 파이프라인을 구성하였습니다.

Pyspark 에서는 해당 테이블의 View를 구성하여 select, join, group by 등의 SQL을 사용하여 데이터를 필터링 할 수 있습니다.

Postgresql_to_MariaDB

import pyspark
from pyspark.sql import SparkSession
ip = "10.65.41.141"
port = 5432
user = "isharkk"
passwd = "rplinux"
db = "testt"
sp = pyspark.sql.SparkSession \
     .builder \
     .config("spark.driver.extraClassPath", "/root/spark-3.2.2-bin-hadoop3/jars/postgresql-42.5.4.jar") \
     .getOrCreate()
query = sp.read.format("jdbc")\
          .option("url","jdbc:postgresql://10.65.41.141:5432/testt") \
          .option("driver", "org.postgresql.Driver") \
          .option("dbtable", "ishark.fps") \
          .option("user", "isharkk") \
          .option("password", "rplinux") \
          .load()
query.show()
query1 = query.write.format("jdbc")\
          .option("url","jdbc:mariadb://10.65.41.140:3306/test") \
          .option("driver", "org.mariadb.jdbc.Driver") \
          .option("dbtable", "post_spark") \
          .option("user", "root") \
          .option("password", " ") \
          .save()

> Postgresql 테이블

>MariaDB 테이블

postgresql 의 테이블 데이터를 정상적으로 받아온 것을 확인할 수 있습니다.

'Hadoop > Spark' 카테고리의 다른 글

Spark Producer(Hadoop to Kafka) (0)	2023.03.14
pySpark ( MariaDB to Hadoop ) (0)	2023.03.14
pySpark( File(csv) to Postgresql ) (0)	2023.03.14
Spark consumer(Kafka to Hadoop) (1)	2023.02.16
Spark & Zeppelin (0)	2022.09.30

'Hadoop/Spark' Related Articles

Comments

DEV_희쨔응

pySpark ( Postgresql to MariaDB ) 본문

pySpark ( Postgresql to MariaDB )

'Hadoop > Spark' 카테고리의 다른 글

티스토리툴바