크롤러의 웹 문서 접근이 용이할 수록 색인 증가 속도도 높아진다. 다만, 기억할 점은 크롤링 된 수 = 색인(indexing) 수는 아니란 것이다.
중복문서를 가진 사이트가 색인이 늦거나 아예 누락되는 것도 검색엔진 크롤링 기능을 저하시키기 때문이다.(네이버는 아직 이 부분은 필터링이 타이트하지 않아 중복문서도 많이 반영 중이다.)
예를 들어 zinicap.kr 과 www.zinicap.kr 그리고 m.zinicap.kr 3개의 사이트가 있다면 사람은 이 3개를 동일 사이트로 인식하지만 봇(bot)은 모두 서로 다른 사이트로 본다.
그렇기 때문에 같은 내용을 담은 웹 페이지가 3개 존재해 크롤러 오류를 발생시킬 수 있다. 반응형 웹 구축을 권하는 것도 이 때문이다.
구글 봇(google bot)은 panda 알고리즘으로 문서 퀄리티를 본다. 크롤러가 중복문서로 분류하면 우선 bot 방문 횟수를 줄인다. 서치 봇이 문서를 가져 가는 빈도가 떨어진만큼 색인도 감소한다.
크롤러가 1,000개의 URL을 수집해갔다 하더라도 색인이 모두 되는 것은 아니다. 구글 검색엔진 최적화에 강한 글 쓰기란 크롤링과 색인이 잘 되는 웹 페이지를 만드는 과정이다. 구글 검색에 강한 사이트를 만들기 원한다면 지켜야 할 3가지가 있다.
1. robots.txt : 루트에 올려야 함
2. sitemap.xml 과 RSS, feed : 루트에 올려야 하고 2가지 버전 모두 사용하는 게 좋다.
3. 구조 최적화(structure optimization)
SEO에 맞는 글 쓰기를 아무리 잘 해도, on page optimization을 아무리 잘 해도 구조 최적화가 잘 되어 있는 사이트를 이기기란 쉽지 않다.
구조를 잘 잡아 둔 상태에서 SEO 글 쓰기 방법을 익히면 검색 효과는 한층 더 강하게 된다. 구글 SEO는 200여 개의 평가항목과 년 간 약 300회~500회의 알고리즘 패치를 통해 수 억개 이상의 변수를 만들지만 핵심은 바뀌지 않는다.