2013년 10월 14일 월요일

Deview 2013 Session4 Track3 - 하둡 및 하둡 에코 시스템을 이용한 데이터 플랫폼 아키텍쳐 적용 사례

연사 : 김형준 GRUTER

1.엔터프라이즈의 빅데이터
   (여러 사례)
   - IT기획 및 관리중심이고 실행은 아웃 소싱 (BAD)
   - IT 자회사가 관리 및 실행 (BAD)
   - 주요 운영/개발은 직접 수행 , 일부 외주 (좋다, 적용은 쉽지않다.)
   - 대부분 직접 수행 (가장 좋지만, 엔터프라이즈는 없고)

  성공요소

   - 분석 결과 가치 > 분석 비용
   - 무엇을 분석할 것인가에 대한 고민
   - 지속적인 분석 결과 개선 활동
   - IT 부서가 아닌 실제 데이터 사용부서가 주도
   - !잘작성된 프로젝트 계획서
   - 실행할 수 있는 기술력

   결론
    - 기존의 데이터 분석과 현재의 빅데이터의 가장 큰 차이는
       기업 스스로 데이터를 적극적으로 이용해서 제품 개발 , 서비스 기능, 마케팅
       등에 차별하되고 경쟁 우위에 있는 무기를 가지는 것.

2. e-Commerce 적용 사례 (실시간 분석 플랫폼)
    - GS 샵 사례
    - 요구사항
       - 멋지게 실시간 분석 , 및 다 해주세요..추천도 넣고 다넣고..

    - 현실
       - 가장 기본적인 LOG조차도 일 단위로 분석
       - 일부 로그는 외부 업체로 전달
       - 데이터로그도 없고...

    - 실시간 분석 시스템 구성

       - 카프카 , 스톰 , 카산드라를 사용
       - 카프카에 임시큐로 넣고 , 스톰에서 분석한다. 그리고 카산드라에 결과를 저장한다.
    - 어려움
       - 중복, 유실 , 성능 모두를 만족시키기 어려움
       - 따라서 핵심적인 기능만 작업하고 , 포기하라 한다. 그럼 보통 유실을 포기한다.

       - 운영관리 : 무정지로 운영되어야 하고,,그런데 프로그램 배포도 해야하니까..이중화
       - 분석 결과 저장 : 저장 주기 , 체크포인트

       - 시간 관리, 분석 로직 구현 , 플랫폼 조합

3. 보안 분석 플랫폼 사례 (데이터 수집 및 검색)
    - 데이터를 수집해서 저장한 다음 , 분석해서 실시간 감지하고 반복해서 강력하고
      지능적인 모델로서 대응한다.

    - 데이터 수집을 위해 FLume 을 섞엇다.
       - Flume OG 사용
       - Tailing 이 쉽지 않음.
       - Agent 재 시작 시 Throttling 기능
         - Network 대역 모두 사용 문제
       - Rolling File 에 대한 인식.
       - Windows 2000?... ... ...

   

4. 바이오 인포메틱스 사례 (Hadoop기반의 Genome Browser용 DB)
   

5. 온라인 컨텐츠 서비스 사례

     - 서비스 기획의 페러다임 변화
     - 프로세스 변화
     - 수집 데이터 소스 확대
     - 오픈 소스 기술 내재화

     - Hive 로 구현했으나 현재는 Tajo로 바꿀려고 준비중이다.
     - Hive 기반으로 하다보니 , 상속관계도 있고 구조가 복잡했다.
     - 따라서 질의 쉽게하고 , 재사용할 수 있는 방법이 필요 했다.

   

댓글 없음:

댓글 쓰기