구글 검색 엔진에 대하여
- 검색하는 String을 단어별로 나누게 되고 , 페이지랭크를 통해 점수를 부여하고
그 단어를 포함하고 있는 페이지를 보여주게 된다.
- 가장 최신의 Page를 저장해서 보여주려고 한다.
- 데이터 관리 방법 : 구글 봇 머신을 이용하여 수집하고 있고 , 빅테이블 이용하고
맵리듀스 사용하고 DataCenter이용
- 구글 봇?
- 아는 페이지 부터 수집한다.
- 크롤된 대상에서 계속 반복해서 링크를 타고 들어간다.
- 오버로딩 하지 않는다.
- 홈페이지 뿐만아니고 그 홈페이지 기반 서버에 대해서도 정보를 수집한다.
- 페이지 링크를 통해 추출한다.
- 페이지 중복을 방지하는 것
중요한 점은
crawling 하기전에 미리 알아서 중복을 방지해야 한다.
데이터센터의 네트워크 및 리소스 낭비를 방지하기 위해서다.
- 구글 봇의 규칙
- Equivalence rule for a cluster
- 즉 Parameter가 나오기 직전 까지를 하나의 룰로 치고 , 그 이후를 하나의 룰로 쳐서
구분하게 된다.
- 결국 ECN(link1) = ECN(link2) = same
- Representative table
- ECN - key 가 되고 value 는 실제 URL
- Find every crawled link under a cluster
- Insignificance analysis
- 파라미터의 상관여부를 분석한다.
- Group links by content
- Group content by remainder link
- 어떻게 구글에서 수많은 클러스터들을 룰로 만들수 있는지
- 샘플링 한 후에 , 맵리듀스를 두번 돌린다.
- 구글 봇의 향후 역할은 중복된 검색 페이지를 줄이는 것을 목표로 한다.
- Google 웹마스터 툴을 통해 권고 한다. (표준으로 고치라고)
- Google 웹마스터 툴을 통해 권고 한다. (표준으로 고치라고)
댓글 없음:
댓글 쓰기