Hadoop/Spark

Spark & Zeppelin

희쨔응 2022. 9. 30. 13:04

개발서버에 Spark Zeppelin을 구축하였습니다.

 

 

Apache Spark는 오픈소스이며, 빅데이터를 분석하는 오픈 소스 병렬 처리 프레임워크입니다.

Spark는 In-memory의 연산을 통해 처리 성능을 향상시켜서 대량의 데이터를 처리하므로 기존의 디스크 기반 대체 방법보다 빠릅니다.

 

 

Zeppelin은 Spark를 기반으로 한 시각화 툴이며, Notebook을 웹 상에서 SQL문을 사용하여 데이터를 시각화해서 보여줍니다.

 

 

▼ Spark/Kafka Connector 구성 후 카프카 연동 해당 토픽 정보 조회

 

 

 

▼ Spark/MySQL Connector 구성 후 연동 해당 테이블 데이터 조회

 

 

 

 원할한 Spark 사용을 위해 Zepellin 구축 후 스파크와 연동