DEV_희쨔응

Hive 본문

Hadoop/Hive

Hive

희쨔응 2022. 10. 13. 14:15

Hive는 Hadoop echo system 중에서 데이터를 모델링하고 프로세싱하는 경우 가장 많이 사용하는 데이터 웨어하우징용 솔루션입니다.

RDB의 데이터베이스, 테이블과 같은 형태로 HDFS에 저장된 데이터의 구조를 정의하는 방법을 제공하며, 이 데이터를 대상으로 SQL과 유사한 HiveQL 쿼리를 이용하여 데이터를 조회하는 방법을 제공합니다.

현재 개발 서버에 구축 되어 있는 Hadoop과 연동하여 구축되었고 아래와 같이 테스트 완료 하였습니다.

 

Hiveserver2 web 화면

Hive 실행 화면

Table 생성

생성된 Table에 데이터 Insert

데이터 조회

Hadoop에서 해당 데이터 조회

 

 

Hive를 통한 csv Data 정규화 작업

해당 file을 업로드할 Table 생성 및 delimiter 정의

해당 file 경로 정의후 생성한 Table에 업로드

Beeline 실행 후 해당 Table 조회

Comments