[Hive] Hive-Intro-(1)

데이터 엔지니어링/HIVE

안용감한호랑이 2023. 8. 9. 00:12

하이브(Hive)는 하둡(Hadoop)기반 데이터 웨어하우징 인프라이다.

하둡은 상용 하드웨어에서 데이터 저장 및 처리를 위한 대규모 스케일아웃 및 내결함성을 제공한다.

하이브는 대량의 데이터를 SQL로 쉽게 요약하고 분석을 진행할수 있도록 설계되었다.

3년간 Hive를 써오면서 느낀 장점은 다양한 포맷(csv, json, xml 등등)의 데이터들을 비교적 쉬운 SQL로 처리할 수 있는점 같다.

다양한 포맷 데이터를 읽고 변환하여 재적재하는 프로그램들을 일일히 만들어야하는 공수가 적은점이 최고 장점아닐까...?

다만 하이브는 맵리듀스 기동 부하로 인해 간단한 쿼리도 DMBS보다 매우 긴 응답시간을 가지지만 일반적으로 Hive로 처리하는 대규모 데이터가 가지는 처리시간에 비하면 짧다.

실제로 Hive document에서 하이브는 online transaction processing을 위한 설계가 아님니 적혀있다.

또한 종종 고객사에서 신규 제공되는 웹 서비스의 DB를 RDBMS가 아닌 Hive로 하면 안되는 이유를 물어보는 경우도 많았다.

개발은 끄적끄적