pySpark ( MariaDB to Hadoop )

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

DEV_희쨔응

pySpark ( MariaDB to Hadoop ) 본문

Hadoop/Spark

pySpark ( MariaDB to Hadoop )

희쨔응 2023. 3. 14. 16:05

개발 서버에 스파크(pySpark)를 활용하여 위와 같은 파이프라인을 구성하였습니다.

Rdb의 테이블 데이터를 Hadoop에 append 형식으로 저장합니다.

스케줄 코드를 입력하면 원하는 시간마다 데이터를 전송할 수 있습니다.

MariaDB_to_Hadoop

from pyspark.sql import SparkSession
 
appName = "PySpark Example - MariaDB Example"
master = "local"
# Create Spark session
spark = SparkSession.builder \
    .appName(appName) \
    .master(master) \
    .getOrCreate()
spark.sparkContext.setLogLevel('ERROR')
 
# sql = "select * from test.post_spark"
 
# Create a data frame by reading data from Oracle via JDBC
df = spark.read.format("jdbc") \
    .option("header",True) \
    .option("url","jdbc:mariadb://10.65.41.140:3306/test") \
    .option("driver", "org.mariadb.jdbc.Driver") \
    .option("dbtable", "post_spark") \
    .option("user", "root") \
    .option("password", " ") \
    .load()
 
df.show()
 
df1 = df.write.format("csv") \
.option("truncate", "false") \
.mode("append") \
.option("checkpointLocation", "/check") \
.option("path", "/test/airtest") \
.save()

> 스파크를 통해 전송한 MariaDB 테이블

> Hadoop에 append 속성을 통해 파일 형식으로 추가되는 데이터

> Hadoop에 저장된 데이터 형식

'Hadoop > Spark' 카테고리의 다른 글

Spark Producer(Hadoop to Kafka) (0)	2023.03.14
pySpark( File(csv) to Postgresql ) (0)	2023.03.14
pySpark ( Postgresql to MariaDB ) (0)	2023.03.14
Spark consumer(Kafka to Hadoop) (1)	2023.02.16
Spark & Zeppelin (0)	2022.09.30

'Hadoop/Spark' Related Articles

Comments

DEV_희쨔응

pySpark ( MariaDB to Hadoop ) 본문

pySpark ( MariaDB to Hadoop )

'Hadoop > Spark' 카테고리의 다른 글

티스토리툴바