Hadoop/Spark
Spark & Zeppelin
희쨔응
2022. 9. 30. 13:04
개발서버에 Spark와 Zeppelin을 구축하였습니다.
Apache Spark는 오픈소스이며, 빅데이터를 분석하는 오픈 소스 병렬 처리 프레임워크입니다.
Spark는 In-memory의 연산을 통해 처리 성능을 향상시켜서 대량의 데이터를 처리하므로 기존의 디스크 기반 대체 방법보다 빠릅니다.
Zeppelin은 Spark를 기반으로 한 시각화 툴이며, Notebook을 웹 상에서 SQL문을 사용하여 데이터를 시각화해서 보여줍니다.
▼ Spark/Kafka Connector 구성 후 카프카 연동 해당 토픽 정보 조회
▼ Spark/MySQL Connector 구성 후 연동 해당 테이블 데이터 조회
▼ 원할한 Spark 사용을 위해 Zepellin 구축 후 스파크와 연동