목록Hadoop (13)
DEV_희쨔응
데모 시나리오 개요 해당 시나리오는 Kafka Topic 에 적재 되어 있는 Data를 Consume 하여 HDFS 에 ORC 확장 자로 적재 하는 데모 시나리오 입니다. Apache Flume 이란 Apache Flume은 오픈소스 프로젝트로 개발된 로그 데이터를 수집 기술 입니다. 여러 서버에서 생산된 대용량 로그 데이터를 효과적으로 수집하여 HDFS과 같은 원격 목적지에 데이터를 전송하는 기능을 제공 합니다. 구조가 단순하고 유연하여 다양한 유형의 Streaming Data Flow아키텍처를 구성할 수 있습니다. Flume 구축 메뉴얼 #설치 경로 접속 $ cd /usr/local/ #플룸 설치 $ wget #압축풀기 $ tar -xvf apache-flume-1.10.1-bin.tar.gz #심볼..

하둡에 저장된 데이터를 카프카에 전송하는 배치성 프로듀서 Demo를 구성하였습니다. Hadoop to kafka Source from pyspark.sql import SparkSession appName = "readj" master = "local" # Create Spark session spark = SparkSession.builder \ .appName(appName) \ .master(master) \ .getOrCreate() # Create DF and save as JSON df = spark.read.format('json').load( 'hdfs://10.65.41.145:9000/test/json/*.json') df.show() # Write key-value data from ..

개발 서버에 스파크(pySpark)를 활용하여 위와 같은 파이프라인을 구성하였습니다. Rdb의 테이블 데이터를 Hadoop에 append 형식으로 저장합니다. 스케줄 코드를 입력하면 원하는 시간마다 데이터를 전송할 수 있습니다. MariaDB_to_Hadoop from pyspark.sql import SparkSession appName = "PySpark Example - MariaDB Example" master = "local" # Create Spark session spark = SparkSession.builder \ .appName(appName) \ .master(master) \ .getOrCreate() spark.sparkContext.setLogLevel('ERROR') # sql..

개발 서버에 Spark를 사용한 위와 같은 파이프라인 demo를 구성하였습니다. 특정한 파일 확장자(CSV, JSON 등)을 스파크(PySpark)를 통해 RDB에 저장합니다. > 예제 파일 file_to_postgres import pyspark from pyspark.sql import SparkSession from pyspark.sql.types import StructType,StructField, StringType, IntegerType from pyspark.sql.types import ArrayType, DoubleType, BooleanType from pyspark.sql.functions import col,array_contains ip = "10.65.41.141" port =..