검색엔진 최적화 방법 가이드(SEO GUIDE 2) -크롤링과 색인(indexing)

Author icon

Written by zinicap

Tag icon

Published under SEO/SMO

Clock icon

2014년 10월 3일

Comments icon

No comments


Warning: in_array() [function.in-array]: Wrong datatype for second argument in /zinicap/www/wp-content/plugins/yet-another-related-posts-plugin/classes/YARPP_Core.php on line 1009

구글 검색창에 site:domain(운영 중인 홈페이지 주소를 입력하면 된다.) 입력하면 구글 검색에 색인(index)된 웹 문서 수를 확인 할 수 있다. 네이버도 웹 문서에서 같은 방법으로 검색하면 운영 중인 사이트의 전체 웹 문서 중 몇 개가 검색에 노출 중인지 확인 할 수 있다. 검색 결과(SERPs)에 많이 노출 되기 위해서는 색인(index) 수부터 높여야 한다.

 

검색창에 site:mydomain 을 입력하면 검색에 노출된 웹문서 수를 알 수 있다

검색창에 site:mydomain 을 입력하면 검색에 노출된 웹문서 수를 알 수 있다.

 

검색엔진이 가져 간(크롤링) 모든 웹 문서를 검색에 반영하는 것은 아니다. 아이가 태어나면 출생 신고를 하듯이 웹 사이트를 오픈하면 검색 엔진에 등록시키는 것이 필요하다. 검색 등록을 하면 그 때부터 검색엔진이 주기적으로 방문해서 새로운 웹 문서가 추가 되었는지, 기존 웹 문서에 어떤 변화가 있었는지 체크해서 검색 결과에 반영 한다.

 

검색 엔진도 사람과 비슷해서 자신을 편하게 해 주는 사이트를 좋아 한다. 찾아 가기도 어려운데 사이트 로딩 속도까지 느리면 검색 엔진은 그 사이트에 방문 횟수를 낮춘다. 그래서 사이트 운영자는 검색 엔진이 자주, 쉽고 빠르게 찾아 올 수 있도록 길을 열어줘야 하는데 그것이 사이트 맵(sitemap)이다.

 

 

홈페이지의 루트에 sitemap.xml 이나 sitemap.txt 파일은 꼭 업로드 해야 한다.

홈페이지의 루트에 sitemap.xml 또는 sitemap.txt 파일은 꼭 업로드 해야 한다.

 

검색 엔진 최적화(SEO) 강의 첫 날 꼭 실행하도록 조언 하는 것 중 하나가 사이트 맵(sitemap) 등록이다. 그동안 검색 엔진 최적화를 한번도 하지 않은 사이트라 할지라도 사이트 맵(sitemap) 등록만 해도 24시간 이후부터 검색 노출이 증가한 것을 바로 경험할 수 있기 때문이다. (웹마스터 도구에서 index 항목을 보면 그래프가 바로 올라 간 것을 볼 수 있다.)

 

위에 보는 사이트 맵과 같이 첫 번째 주소부터 크롤러(bot, search engine, spider 등 모두 같은 것으로 생각하면 된다.)가 방문하기 시작한다. 그 첫번째 웹 문서 속에 링크(link)가 있다면 그 링크를 타고 다시 들어가고, 그렇게 들어간  곳에 또 링크가 발견되면 계속 링크를 타고 돌면서 찾는 웹 문서를 크롤링 한다. 이렇게 첫 번째 순서가 마무리 되면 그 다음 두 번째 주소를 접속하고 위 처럼 또 같은 방법을 반복하면서 발견되는 링크를 계속 저장 한다.  이러한 과정을 크롤러가 크롤링한다고 한다.

 

구글, 야후, 빙 각 각의 검색 엔진은 특정 사이트에서 발견된 모든 웹 문서 수집을 마쳤다면 한번 방문으로 끝내지 않고 재차 방문해서 새로운 웹 문서가 올라 왔는지, 수정 업데이트 된 내용은 없는지 체크하며 앞으로 방문 해야 할 사이트 대상과 크롤링 할 횟수와 각 사이트 마다 가져 올 웹 문서 수를 결정한다. 크롤러가 패턴 분석을 하는이 부분이 상당히 중요한 의미를 갖는다. (대부분의 웹 사이트 운영자들이 이 지점부터 미스하는 경우가 많다. 특정 분야의 전문화된 정보를 주기적으로 업데이트 하는 곳과 여러 분야의 정보를 비 정규적으로 올리는 곳의 SEO 평가 점수는 여기부터 벌어지기 시작 한다.)

 

이와 같은 크롤링 과정 후 진행 되는 것이 색인(index) 작업이다. 각 페이지를 수집(크롤링)하면서 발견된 단어(word)와 단어 간격, 위치 등으로 구성된 색인 작업을 하는데(참고로 네이버는 형태소 단위로 순위를 결정하는 매우 단순한 알고리즘을 사용 중이다.) 이 과정에서 Title, ALT 태그 등의 SEO 기본 태깅 속성 값을 읽어 분류한다. 그럼으로 크롤링 된 수보다 실제 색인되는 수는 적을 수 밖에 없다. Title, ALT 등 태그 작업을 정확하게 하지 않았다면 색인 과정에서 누락 되거나 순위가 뒤로 밀리게 되는 것이다.

 

인터넷을 검색하는 검색자가 특정 키워드를 입력하여 찾기 시작하면 이렇게 색인된 정보에서 검색자가 찾는 정보와 관련성이 가장 높은 페이지를 찾아 보여 주는 것이 검색 엔진의 평균 게재 순위다. 구글은 평균 게재 순위를 결정하는데 200개 이상의 평가 항목을 사용 한다. 그 중에 하나가 많이 알려진 페이지 랭크(PageRank)다.

 

SEO 평가 항목의 각 요소에 대한 가중치를 업데이트 하거나 새로운 요소를 추가하는 등의 작업이 검색 알고리즘 업데이트인데 구글은 1년에 약 500회 정도의 검색 알고리즘 업데이트를 한다. 검색엔진 작동 원리를 이해 하면 검색 노출이 잘 되는 사이트를 보다 쉽게 만들 수 있다. 다음 3편에서는 검색 엔진에 노출되는 순위가 어떻게 오르고 내리는지 설명하겠다.

 


About the Author

Posted by zinicap 성과를 측정하지 못하는 마케팅은 광고주의 지지를 이끌지 못합니다. 100% 내부 기술에 의한 프로그램 개발, 데이터 분석, SEO & SNS 통합마케팅, ROI 측정이 가능한 솔루션 기반의 마케팅을 합리적인 가격에 제안 합니다. 문의 : UXKOREA
Bottom border