2013년 10월 14일 월요일

Deview 2013 - 2 Session Track1 - 구글의 검색 수집 로봇 최적화

강연 연사 : 김영진

구글 검색 엔진에 대하여

- 검색하는 String을 단어별로 나누게 되고 , 페이지랭크를 통해 점수를 부여하고
   그 단어를 포함하고 있는 페이지를 보여주게 된다.

- 가장 최신의 Page를 저장해서 보여주려고 한다.

- 데이터 관리 방법 : 구글 봇 머신을 이용하여 수집하고 있고 , 빅테이블 이용하고 
                               맵리듀스 사용하고 DataCenter이용

- 구글 봇?
   - 아는 페이지 부터 수집한다.
   - 크롤된 대상에서 계속 반복해서 링크를 타고 들어간다.
   - 오버로딩 하지 않는다. 
   - 홈페이지 뿐만아니고 그 홈페이지 기반 서버에 대해서도 정보를 수집한다.
   - 페이지 링크를 통해 추출한다.
   - 페이지 중복을 방지하는 것
  
중요한 점은
crawling 하기전에 미리 알아서 중복을 방지해야 한다.
데이터센터의 네트워크 및 리소스 낭비를 방지하기 위해서다.

- 구글 봇의 규칙
   - Equivalence rule for a cluster
      - 즉 Parameter가 나오기 직전 까지를 하나의 룰로 치고 , 그 이후를 하나의 룰로 쳐서
        구분하게 된다.
   - 결국 ECN(link1) = ECN(link2) = same 

   - Representative table
      - ECN - key 가 되고 value 는 실제 URL 
   
   - Find every crawled link under a cluster
      
- Insignificance analysis 
    - 파라미터의 상관여부를 분석한다.
    - Group links by content
    - Group content by remainder link
  
- 어떻게 구글에서 수많은 클러스터들을 룰로 만들수 있는지
   - 샘플링 한 후에 , 맵리듀스를 두번 돌린다.

- 구글 봇의 향후 역할은 중복된 검색 페이지를 줄이는 것을 목표로 한다.

- Google 웹마스터 툴을 통해 권고 한다. (표준으로 고치라고)

댓글 없음:

댓글 쓰기