목록Kafka (29)
DEV_희쨔응

시나리오 구성도 먼저 Python API가 인프라 통계 정보 추출을 위한 인증 Token값을 요청 한 후 발급 받은 Token값을 http requests 에 포함 시켜 전송 후 통계 데이터를 추출 및 Kafka A Topic에 json형식으로 적재 합니다. 해당 작업은 Airflow를 통해 UI/UX 환경에서 관리 되며 배치 성 작업으로 등록 되어 구동 합니다. 이 후 A Topic에 적재된 데이터는 KSQL을 통하여 Stream Table을 생성 한 후 B Topic에 데이터를 적재 하고 해당 B Topic을 Postgre Sink Connector 가 컨슘 하여 Target DB에 해당 데이터를 적재 합니다. Airflow DAG 등록 from datetime import date, timedelt..

현재 테스트 서버에 아래와 같은 데모시나리오 테스트/개발 을 완료 하였습니다. 네이버 API를 사용하여 Rockplace 관련 뉴스 기사 정보를 파이썬 코드로 Web crawling 한 후 JSON형식으로 변환 합니다 그 후 플루언트디의 HTTP 통신을 통해 Kafka Topic에 해당 Data를 적재합니다. 파이썬 예제 소스 import requests import json from bs4 import BeautifulSoup from fluent import sender sender.setup('myapp', host='10.65.41.142', port=8888) url = 'https://openapi.naver.com/v1/search/news.json?' clientid = "ERgXUWS4i..

위와 같은 데모 시나리오로 테스트 서버에 개발/테스트 완료 하였습니다. Kafka Topic의 데이터를 Flume을 사용하여 Consume 한 후 지정된 디렉터리에 File형식으로 적재하는 시나리오 입니다. Flume Kafka 컨슈머 소스 agent_heejae.sources = kafka_src agent_heejae.channels = mem_chnl agent_heejae.sinks = file_sink agent_heejae.sources.kafka_src.channels = mem_chnl agent_heejae.sources.kafka_src.type = org.apache.flume.source.kafka.KafkaSource agent_heejae.sources.kafka_src.kafk..

Debizium Mysql CDC Source 커넥터가 Avro 형식으로 데이터를 추출해 Kafka Topic에 Pub해주고 Confluent Kudu sink 커넥터가 해당 Topic을 Consume 하여 Impala Table에 적재하는 시나리오 입니다. 데모 시나리오 테스트 결과 Debizium Mysql CDC Source 커넥터 동작 이상 없음 (Insert / Delete / Update / Upsert) Schema Resister 동작 이상 없음 (Source 테이블 컬럼명 데이터 타입 매핑 동작) Confluent Kudu sink 제한 사항 Topic에 적재된 CDC 데이터 Impala 적용시 Delete, Update, Upsert 지원 하지 않음 오로지 Insert 동작만 지원 My..