블로그를 운영 하다 보면 자료 조사 열심히 해서 자신의 블로그에 올린 글을 누군가 동의 없이 가져가 마치 그 자신이 쓴 글처럼 카페나 블로그, 심지어 회사 공식 사이트에 올려 놓은 것을 보고 기분이 상해 본 경험이 한 두 번 정도는 있을 것 같다.
또한, 특정 매체에 글을 기고 하고 있다면 원본과 사본이 존재하게 되는데 이 경우에도 의도하지 않았지만 원본과 사본으로 같은 글이 2편 이상 만들어지는 경우가 있다.
네이버 블로거들 사이에서는 스크랩으로 글을 공유 하는 기능이 있다. 스크랩 된 글은 네이버 검색에 반영하지 않는다. 그러나 글 전체를 수동으로 복사해서 가져 간 글은 별도의 중복 문서 필터링을 통해서 가려 내고 있지만 중복 문서 판정 알고리즘이 완벽하지는 않다. 키워드 하나로도 수 많은 감정과 상태를 표현 할 수 있는 한글 특성 상 중복 문서를 완벽하게 필터링 하기란 기술적으로도 쉬운 작업은 아니다.
검색엔진은 글을 읽고 사람처럼 융통성 있게 대처하지 못 한다. 대신 원본과 사본을 쉽게 구분 할 수 있는 태그를 만들었다. 이것이 검색엔진 최적화(SEO)에서 사용하는 canonical link tag다. 즉, 이 태그를 입힌 링크 값은 원본임으로 다른 글이 있을 경우에는 사본으로 인식해 달라는 신호다.
만약 복사 본을 가져 간 사람 쪽에서도 이 태그를 사용하면 어쩌나? 걱정을 할 수도 있겠으나 그런 걱정은 하지 않아도 된다. 캐노니컬 태그가 사용된 케이스를 보면 아래와 같다.
자료 화면에 보는 바와 같이 100% 똑 같은 글을 그대로 가져 간 사이트도 원문보다 아래에 노출이 된다. 검색엔진(search engine)이 좋아 하는 웹 문서 구조를 만들었을 때 검색엔진 최적화(SEO) 효율은 높아진다. 검색엔진 효율을 높여 준다는 것은 자동차 연비를 높여 주는 것과 유사하다.
사람으로 비유하자면 목표 달성을 위해 땀을 많이 흘리게 하는 것보다는 편하게 완수 할 수 있는 환경과 조건을 제공 함으로써 확보 된 여유 시간과 에너지를 또 다른 업무에 활용 할 수 있도록 해 주는 것과 같다.
중복 문서(duplicate document)의 경우 검색엔진이 원문과 사본을 정확하게 판별하기 위해서는 정교한 알고리즘(algorithm)이 필요하게 되는데 그 만큼 에너지를 많이 사용해야 한다. 반면, 정해진 규약인 canonical tag를 사용해 주면 이런 절차 없이 바로 판별을 할 수 있으니 해당 문서에 대해 더 높은 점수를 주게 되는 것이다.
운영 중인 블로그에 canonical link tag 적용으로 이제부터 중복 문서 고민에서 벗어나 보는 것은 어떨까?