주말을 이용해 정부 기관 사이트(정당 포함)를 광범위하게 조사해본 결과 81개 사이트 가운데 청와대를 비롯해 국정홍보처, 재정경제부, 국세청, 법무부, 정보통신부 등 국민들이 정보에 대한 기대 수준이 높은 37개 사이트들이 검색엔진의 접근을 막고 있더군요.
그런데 조사하다 보니 흥미로운 결과가 있어서 소개해드릴까 합니다. robots.txt를 막는다고 막고 있는 곳에서 얼마나 생각이 없이 이 파일을 적용하고 있는지를 확인할 수 있을 겁니다.
일단 제가 조사한 결과에 대해서는
링블로그에 게시해 놓았으니 참고하시구요. 별도의
칼럼도 올렸습니다. 정부에 대해 약간은 비판적인 시각으로 썼지만 사실 우리나라 정부 기관만 robots.txt를 사용하는 것은 아닙니다.
미국 백악관 사이트를 보시면 아시겠죠. 숨기고 싶은 곳이 많을수록 robots.txt를 사용하게 되죠.
우리나라 국가 기관 사이트 가운데 robots.txt를 사용하고 있는 곳은 그렇다고 치고 robot.txt ('s'가 빠졌습니다. 하핫..^^)를 동시에 채택(?)한 곳도 있더라는 것이죠. 아래 사이트를 확인해보세요.
재정경제부 : http://www.mofe.go.kr/robot.txt
그나마 재정경제부는 robots.txt와 robot.txt 내용이 같습니다. 그런데 아래 환경부의 경우,
환경부 : http://www.me.go.kr/robots.txt
 |
|
|
| |
User-agent: *
Disallow: / |
|
| |
|
 |
환경부 : http://www.me.go.kr/robot.txt
 |
|
|
| |
# robot.txt for http://www.me.go.kr/
User-agent: *
Disallow: /
User-agent: *
Disallow: /disk4/home
User-agent: *
Disallow: /disk4/DEPTDATA
User-agent: *
Disallow: /webdata/
User-agent: *
Disallow: /disk7/meadmin/jeus42/webhome/servlet_home/webapps/me |
|
| |
|
 |
내용이 달라요. 게다가 robot.txt 내용은 논리적으로도 불필요한 문구들이 들어가 있군요.
모든 User-agent(검색봇)에 대해 루트(/) 이하를 모두 막겠다는 내용이 있음에도 따로 별도의 내용들을 채워 넣은 것을 보니 실소를 할 수밖에 없네요.
그리고 또 하나 문법적으로도 틀리고 논리적으로도 틀린 곳이 있습니다.
국민고충처리위원회 : http://www.ombudsman.go.kr/robots.txt
 |
|
|
| |
User-Agent:*, Googlebot
Disallow: /... |
|
| |
|
 |
정말 난감하군요. 모든(*) 검색 봇을 포함했으면서도 구글봇(Googlebot)을 따로 추가한 이유는 뭘까요? 물론 'User-Agent' 부분도 'User-agent'라고 써야 맞습니다. 이런 철자 오류가 많은 것을 보면 서로 보고 베낀 흔적이 아닐까 싶기도 합니다.^^
대법원 역시 논리에 반하는 규칙을 정해 놓았습니다.
대법원 : http://www.scourt.go.kr/robots.txt
 |
|
|
| |
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Image
Disallow: /
User-agent: *
Disallow: |
|
| |
|
 |
보시면 아시겠지만 구글봇과 구글이미지 봇에 대해 모두 막았으면서 맨 아래 부분에서는 모든 검색봇에 대해 모든 내용을 허용했습니다. 원래 의도를 유추해보자면 논리적으로 구글봇만 빼고 나머지는 허용한다 정도 되겠는데요. 따라서 맨 아래 내용은 불필요한 내용인 것이죠.
국가 기관이 정보 공유에 힘쓰지는 못할 망정 robots.txt 쓰는 것도 맘에 안 드는데 문법까지 틀리고 있으니 한숨이 나오네요. 에효~