2014년 4월 4일 금요일

하둡 에코시스템

- 하둡의 비즈니스에 효율적으로 적용할 수 있게 다양한 서브 프로젝트가 제공
- 서브 프로젝트가 상용화 되면서 하둡 에코시스템이 구성
































분산 코디네이터 (Zookeeper)
- 분산 환경에서 서버 간의 상호 조정이 필요한 다양한 서비스를 제공하는 시스템
- 하나의 서버에만 서비스가 집중되지 않게 서비스를 알맞게 분산해 동시에 처리
- 하나의 서버에서 처리한 결과를 다른 서버와도 동기화해서 데이터 안정성 보장
- 분산 환경을 구성하는 서버들의 환경설정을 통합적 관리 지원

워크 플로우 관리(Oozie)
- 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템
- 자바 서블릿 컨테이너에서 실행되는 자바 웹 어플리케이션 서버
- 맵리듀스 작업이나 피그 작업 같은 특화된 액션으로 구성된 워크 플로우 제어

분산 데이터 베이스(HBase)
- HDFS 기반의 칼럼 기반 데이터베이스
- 구글의 BigTable 논문을 기반으로 개발됨
- 실시간 랜덤 조회 및 업데이트가 가능
- 각 프로세스는 개인의 데이터를 비동기적으로 업데이트할 수 있음

데이터 분석 (Pig)
- 야후 에서 개발됐으나 현재는 아파치 프로젝트에 속한 프로젝트
- 복잡한 맵리듀스 프로그래밍을 대체할 pig Latin 이라는 자체 언어 제공
- 맵리듀스 API를 크게 단순화 , SQL과 유사한 형태로 설계
- SQL 과 유사하기만 하다! 기존 SQL지식 활용 어려움

데이터 분석 (Hive)
- 하둡 기반의 데이터웨어하우징용 솔루션
- 페이스북에서 개발됨
- 오픈소스로 공개되어 있음
- SQL과 매우 유사한 HiveQL 쿼리 제공

Sqoop
- 대용량 데이터 전송 솔루션

Impala
- 클라우데라에서 개발한 하둡 기반의 실시간 SQL 질의 시스템
- 맵리듀스를 사용하지 않음
- 자체 개발 엔진 사용하여 빠른 성능을 보여줌
- 데이터 조회를 위한 인터페이스로 HiveQL 사용
- HBase 와도 연동 가능

Tajo
- 고려대학교 박사 과정 학생들이 주도해서 개발한 하둡 기반의 DW시스템
- 2013년 아파치 재단의 인큐베이터 프로젝트로 선정 (현재 최상위 프로젝트로 승격)
관련 기사 : http://www.ddaily.co.kr/news/article.html?no=116975
- 임팔라가 클라우데라의 하둡을 써야하는 제약이 있는 반면 타조는 종속이 없음
- Hive 보다는 2~3배 빠르며 임팔라와 속도가 비슷함

댓글 없음:

댓글 쓰기