목록Hadoop (13)
DEV_희쨔응

개발 서버에 스파크(Pyspark)를 이용하여 다른 RDB 간의 테이블 데이터를 옮기는 파이프라인을 구성하였습니다. Pyspark 에서는 해당 테이블의 View를 구성하여 select, join, group by 등의 SQL을 사용하여 데이터를 필터링 할 수 있습니다. Postgresql_to_MariaDB import pyspark from pyspark.sql import SparkSession ip = "10.65.41.141" port = 5432 user = "isharkk" passwd = "rplinux" db = "testt" sp = pyspark.sql.SparkSession \ .builder \ .config("spark.driver.extraClassPath", "/root/spa..

Airflow란 에어비앤비에서 개발한 워크플로우 스케줄링, 모니터링 플랫폼 입니다. 현재 아파치의 탑레벨 프로젝트에 등록 되어 있으며 Hadoop echosystem 에서 특히 python기반으로 개발 되었기 때문에 Pyspark와 함께 많이 사용되는 툴 입니다. 테스트 서버에 구축 이 완료 되었으며 아래와 같은 시나리오로 개발/테스트 하였습니다. 총 3개의 Pyspark job을 사용하여 워크플로우를 구성 하였습니다. 먼저 csv 형식의 파일을 Postgresql DB에 A테이블에 적재 후 해당 작업 종료 후 2번 작업이 실행 되며 적재된 A테이블의 데이터를 Maria DB 의 A테이블로 ETL 한 후 마지막으로 3번째 작업인 Maria DB 의 A테이블을 Hdfs에 orc 확장자로 Append 하며 ..

개발 서버에 Spark를 사용한 아래와 같은 파이프라인 demo를 구성하였습니다. Kafka에서 가져온 데이터를 Read하여 HDFS에 ORC나 Parquet 형식으로 저장합니다. Kafka to hadoop source #contest.py from pyspark.sql import SparkSession sc = SparkSession.builder.getOrCreate() sc.sparkContext.setLogLevel('ERROR') # Read stream log = sc.readStream.format("kafka") \ .option("kafka.bootstrap.servers", "10.65.41.140:9092") \ .option("subscribe", "topic13") \ .opt..

현재 개발 서버에 Apache Impala & Kudu 구축이 완료 되었습니다. Apache Impala는 Hadoop에서 실행되는 쿼리 엔진 입니다 HDFS에 적재되어 있는 Data를 SQL을 이용해 실시간으로 분석할 수 있는 시스템 이고 MaapReduce프레임워크를 이용하지 않고 분산 질의 엔진을 이용해 분석하기 때문에 빠른 결과를 제공합니다. kudu는 Apache Hadoop Ecosystem 저장소 중 하나로 Columnar Storage 입니다. Columnar 형식으로 HBase와 같이 NoSQL이 아니므로 schema를 가지고 있으며, column별로 파일을 저장 합니다. 임팔라 구동 화면 Kudu 구동 화면 Impala Table 생성 Kudu UI 에서 Impala에 생성된 테이블 확..