개발은 끄적끄적

[Hive] Hive-Intro-(1)

컨셉 하이브(Hive)는 하둡(Hadoop)기반 데이터 웨어하우징 인프라이다. 하둡은 상용 하드웨어에서 데이터 저장 및 처리를 위한 대규모 스케일아웃 및 내결함성을 제공한다. 하이브는 대량의 데이터를 SQL로 쉽게 요약하고 분석을 진행할수 있도록 설계되었다. 3년간 Hive를 써오면서 느낀 장점은 다양한 포맷(csv, json, xml 등등)의 데이터들을 비교적 쉬운 SQL로 처리할 수 있는점 같다. 다양한 포맷 데이터를 읽고 변환하여 재적재하는 프로그램들을 일일히 만들어야하는 공수가 적은점이 최고 장점아닐까...? 다만 하이브는 맵리듀스 기동 부하로 인해 간단한 쿼리도 DMBS보다 매우 긴 응답시간을 가지지만 일반적으로 Hive로 처리하는 대규모 데이터가 가지는 처리시간에 비하면 짧다. 실제로 Hive..

데이터 엔지니어링/HIVE 2023.08.09

« 2025/04 »

일

월

화

수

목

금

토

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

개발은 끄적끄적

전체 글 32

티스토리툴바