데이터 엔지니어링/HIVE

[Hive] Hive-Intro-(1)

안용감한호랑이 2023. 8. 9. 00:12

컨셉

하이브(Hive)는 하둡(Hadoop)기반 데이터 웨어하우징 인프라이다.

하둡은 상용 하드웨어에서 데이터 저장 및 처리를 위한 대규모 스케일아웃 및 내결함성을 제공한다.

 

하이브는 대량의 데이터를 SQL로 쉽게 요약하고 분석을 진행할수 있도록 설계되었다.

3년간 Hive를 써오면서 느낀 장점은 다양한 포맷(csv, json, xml 등등)의 데이터들을 비교적 쉬운 SQL로 처리할 수 있는점 같다.

다양한 포맷 데이터를 읽고 변환하여 재적재하는 프로그램들을 일일히 만들어야하는 공수가 적은점이 최고 장점아닐까...?

 

다만 하이브는 맵리듀스 기동 부하로 인해 간단한 쿼리도 DMBS보다 매우 긴 응답시간을 가지지만 일반적으로 Hive로 처리하는 대규모 데이터가 가지는 처리시간에 비하면 짧다.

실제로 Hive document에서 하이브는 online transaction processing을 위한 설계가 아님니 적혀있다.

또한 종종 고객사에서 신규 제공되는 웹 서비스의 DB를 RDBMS가 아닌 Hive로 하면 안되는 이유를 물어보는 경우도 많았다.

 

 

 

'데이터 엔지니어링 > HIVE' 카테고리의 다른 글

[Hive] 하이브 Query 주의 사항  (1) 2023.10.25
[Hive]하이브 관련 튜닝 옵션 정리  (1) 2023.10.24
[Hive] Hive-맵리듀스(2)  (0) 2023.08.09
[Hive] Hive-시작-(0)  (1) 2023.08.08