목록Kafka (29)
DEV_희쨔응

Apache Flume은 오픈소스 프로젝트로 개발된 로그 데이터를 수집 기술이다. 여러 서버에서 생산된 대용량 로그 데이터를 효과적으로 수집하여 HDFS과 같은 원격 목적지에 데이터를 전송하는 기능을 제공한다. 구조가 단순하고 유연하여 다양한 유형의 Streaming Data Flow아키텍처를 구성할 수 있다. 현재 테스트 서버에 구축 완료 되었고 아래와 같이 테스트 완료 되었습니다. Topic to Hadoop source/sink config Flume 실행 Kafka Topic에 Data 전송 Kafka manager 를 이용하여 Source Topic의 Consumer Group id 확인 (Topic to Hadoop source/sink config 단계에서 지정해준 Consumer Group..

프로세스를 daemon으로 위탁 관리해주는 tool인 supervisord를 테스트 서버에 구축/테스트 완료 하였습니다. supervisord는 Kafka 로 Streaming작업을 하는 다양한 플랫폼에서 사용 하고 있으며 주로 Producer/Consumer API의 무 중단 서비스를 위해 사용 되고 있습니다. 테스트는 아래와 같이 진행 하였습니다. Supervisor 버전 확인 Supervisor 동작 확인 Kafka Producer 테스트 스크립트 (python 개발) Supervisor conf에 해당 작업 등록 등록된 작업 확인 log확인 Kafdrop을 통해 Topic Data확인

현재 테스트 서버에 아래와 같은 Demo를 구성 하였습니다. Nosql기반의 저장소인 Elasticsearch 에 Presto 엔진이 붙어 Elastic의 DSL쿼리를 SQL쿼리로 변환하여 데이터를 추출 후 Logstash 가 해당 Data를 Kafka의 특정 Topic에 전송 합니다. DBeaver를 통해 PrestoDB 소스 Data를 조회 Logstash 실행 화면 Kafdrop을 통한 Topic Data 조회

apache Storm, Spark Streaming과 같은 스트리밍 & 배치 프로세싱 플랫폼입니다. Flink는 Streaming model이 batch가 아닌 native 방식으로 스트림 처리에 대해 low latency 특성을 가지고 있습니다 또한 Exactly-once를 보장하고 높은 처리량을 보이기 때문에 최근 스트림 처리 분야에서 곽광받고 있습니다. 현재 개발서버에 구축이 완료 되었고 아래와 같이 테스트 하였습니다. Flink Kafka Consumer 예제 소스 package org.apache.flink.streaming.examples.kafka; import org.apache.flink.api.common.restartstrategy.RestartStrategies; import or..