Blessldk :: 하쿠나마타타: Deview 2013 - 2 Session Track1 - 구글의 검색 수집 로봇 최적화

강연 연사 : 김영진

구글 검색 엔진에 대하여

- 검색하는 String을 단어별로 나누게 되고 , 페이지랭크를 통해 점수를 부여하고

그 단어를 포함하고 있는 페이지를 보여주게 된다.

- 가장 최신의 Page를 저장해서 보여주려고 한다.

- 데이터 관리 방법 : 구글 봇 머신을 이용하여 수집하고 있고 , 빅테이블 이용하고

맵리듀스 사용하고 DataCenter이용

- 구글 봇?

- 아는 페이지 부터 수집한다.

- 크롤된 대상에서 계속 반복해서 링크를 타고 들어간다.

- 오버로딩 하지 않는다.

- 홈페이지 뿐만아니고 그 홈페이지 기반 서버에 대해서도 정보를 수집한다.

- 페이지 링크를 통해 추출한다.

- 페이지 중복을 방지하는 것

중요한 점은

crawling 하기전에 미리 알아서 중복을 방지해야 한다.

데이터센터의 네트워크 및 리소스 낭비를 방지하기 위해서다.

- 구글 봇의 규칙

- Equivalence rule for a cluster

- 즉 Parameter가 나오기 직전 까지를 하나의 룰로 치고 , 그 이후를 하나의 룰로 쳐서

구분하게 된다.

- 결국 ECN(link1) = ECN(link2) = same

- Representative table

- ECN - key 가 되고 value 는 실제 URL

- Find every crawled link under a cluster

- Insignificance analysis

- 파라미터의 상관여부를 분석한다.

- Group links by content

- Group content by remainder link

- 어떻게 구글에서 수많은 클러스터들을 룰로 만들수 있는지

- 샘플링 한 후에 , 맵리듀스를 두번 돌린다.

- 구글 봇의 향후 역할은 중복된 검색 페이지를 줄이는 것을 목표로 한다.

- Google 웹마스터 툴을 통해 권고 한다. (표준으로 고치라고)

Blessldk :: 하쿠나마타타