연사 : 김형준 GRUTER
1.엔터프라이즈의 빅데이터
(여러 사례)
- IT기획 및 관리중심이고 실행은 아웃 소싱 (BAD)
- IT 자회사가 관리 및 실행 (BAD)
- 주요 운영/개발은 직접 수행 , 일부 외주 (좋다, 적용은 쉽지않다.)
- 대부분 직접 수행 (가장 좋지만, 엔터프라이즈는 없고)
성공요소
- 분석 결과 가치 > 분석 비용
- 무엇을 분석할 것인가에 대한 고민
- 지속적인 분석 결과 개선 활동
- IT 부서가 아닌 실제 데이터 사용부서가 주도
- !잘작성된 프로젝트 계획서
- 실행할 수 있는 기술력
결론
- 기존의 데이터 분석과 현재의 빅데이터의 가장 큰 차이는
기업 스스로 데이터를 적극적으로 이용해서 제품 개발 , 서비스 기능, 마케팅
등에 차별하되고 경쟁 우위에 있는 무기를 가지는 것.
2. e-Commerce 적용 사례 (실시간 분석 플랫폼)
- GS 샵 사례
- 요구사항
- 멋지게 실시간 분석 , 및 다 해주세요..추천도 넣고 다넣고..
- 현실
- 가장 기본적인 LOG조차도 일 단위로 분석
- 일부 로그는 외부 업체로 전달
- 데이터로그도 없고...
- 실시간 분석 시스템 구성
- 카프카 , 스톰 , 카산드라를 사용
- 카프카에 임시큐로 넣고 , 스톰에서 분석한다. 그리고 카산드라에 결과를 저장한다.
- 어려움
- 중복, 유실 , 성능 모두를 만족시키기 어려움
- 따라서 핵심적인 기능만 작업하고 , 포기하라 한다. 그럼 보통 유실을 포기한다.
- 운영관리 : 무정지로 운영되어야 하고,,그런데 프로그램 배포도 해야하니까..이중화
- 분석 결과 저장 : 저장 주기 , 체크포인트
- 시간 관리, 분석 로직 구현 , 플랫폼 조합
3. 보안 분석 플랫폼 사례 (데이터 수집 및 검색)
- 데이터를 수집해서 저장한 다음 , 분석해서 실시간 감지하고 반복해서 강력하고
지능적인 모델로서 대응한다.
- 데이터 수집을 위해 FLume 을 섞엇다.
- Flume OG 사용
- Tailing 이 쉽지 않음.
- Agent 재 시작 시 Throttling 기능
- Network 대역 모두 사용 문제
- Rolling File 에 대한 인식.
- Windows 2000?... ... ...
4. 바이오 인포메틱스 사례 (Hadoop기반의 Genome Browser용 DB)
5. 온라인 컨텐츠 서비스 사례
- 서비스 기획의 페러다임 변화
- 프로세스 변화
- 수집 데이터 소스 확대
- 오픈 소스 기술 내재화
- Hive 로 구현했으나 현재는 Tajo로 바꿀려고 준비중이다.
- Hive 기반으로 하다보니 , 상속관계도 있고 구조가 복잡했다.
- 따라서 질의 쉽게하고 , 재사용할 수 있는 방법이 필요 했다.
댓글 없음:
댓글 쓰기