전체 글 32

[Hive] Hive-Intro-(1)

컨셉 하이브(Hive)는 하둡(Hadoop)기반 데이터 웨어하우징 인프라이다. 하둡은 상용 하드웨어에서 데이터 저장 및 처리를 위한 대규모 스케일아웃 및 내결함성을 제공한다. 하이브는 대량의 데이터를 SQL로 쉽게 요약하고 분석을 진행할수 있도록 설계되었다. 3년간 Hive를 써오면서 느낀 장점은 다양한 포맷(csv, json, xml 등등)의 데이터들을 비교적 쉬운 SQL로 처리할 수 있는점 같다. 다양한 포맷 데이터를 읽고 변환하여 재적재하는 프로그램들을 일일히 만들어야하는 공수가 적은점이 최고 장점아닐까...? 다만 하이브는 맵리듀스 기동 부하로 인해 간단한 쿼리도 DMBS보다 매우 긴 응답시간을 가지지만 일반적으로 Hive로 처리하는 대규모 데이터가 가지는 처리시간에 비하면 짧다. 실제로 Hive..

[Hive] Hive-시작-(0)

신입때 부터 Hive를 이용해서 Workflow를 만들어 왔고 관련해서 정리도 했지만.... 개발자 다들 하는 블로그로 지식 정리겸... 시작해보려고 한다..(첫날임...) 전체적인 내용은 'Programming Hive' 이라는 책에 있는 내용을 토대로 Hive document 와 같이 정리하려고 한다.... 해당 책은 초반 발행일이 2013년이기도하고 Hive 버전이 2이기 때문에 프로젝트 마다 설정이 다르고 적용하지 못하거나 이미 적용되어있는 경우도 많아 document와 비교하여 정리하려고 한다.