robots.txt 문법도 틀린 국가기관 사이트

주말을 이용해 정부 기관 사이트(정당 포함)를 광범위하게 조사해본 결과 81개 사이트 가운데 청와대를 비롯해 국정홍보처, 재정경제부, 국세청, 법무부, 정보통신부 등 국민들이 정보에 대한 기대 수준이 높은 37개 사이트들이 검색엔진의 접근을 막고 있더군요.

그런데 조사하다 보니 흥미로운 결과가 있어서 소개해드릴까 합니다. robots.txt를 막는다고 막고 있는 곳에서 얼마나 생각이 없이 이 파일을 적용하고 있는지를 확인할 수 있을 겁니다.

일단 제가 조사한 결과에 대해서는 링블로그에 게시해 놓았으니 참고하시구요. 별도의 칼럼도 올렸습니다. 정부에 대해 약간은 비판적인 시각으로 썼지만 사실 우리나라 정부 기관만 robots.txt를 사용하는 것은 아닙니다. 

미국 백악관 사이트를 보시면 아시겠죠. 숨기고 싶은 곳이 많을수록 robots.txt를 사용하게 되죠.

우리나라 국가 기관 사이트 가운데 robots.txt를 사용하고 있는 곳은 그렇다고 치고 robot.txt ('s'가 빠졌습니다. 하핫..^^)를 동시에 채택(?)한 곳도 있더라는 것이죠. 아래 사이트를 확인해보세요.

재정경제부 : http://www.mofe.go.kr/robot.txt

그나마 재정경제부는 robots.txt와 robot.txt 내용이 같습니다. 그런데 아래 환경부의 경우,

환경부 : http://www.me.go.kr/robots.txt
   
  User-agent: *
Disallow: /
 
   
환경부 : http://www.me.go.kr/robot.txt

   
  # robot.txt for http://www.me.go.kr/

User-agent: *
Disallow: /

User-agent: *
Disallow: /disk4/home

User-agent: *
Disallow: /disk4/DEPTDATA

User-agent: *
Disallow: /webdata/

User-agent: *
Disallow: /disk7/meadmin/jeus42/webhome/servlet_home/webapps/me
 
   

내용이 달라요. 게다가 robot.txt 내용은 논리적으로도 불필요한 문구들이 들어가 있군요.

모든 User-agent(검색봇)에 대해 루트(/) 이하를 모두 막겠다는 내용이 있음에도 따로 별도의 내용들을 채워 넣은 것을 보니 실소를 할 수밖에 없네요.

그리고 또 하나 문법적으로도 틀리고 논리적으로도 틀린 곳이 있습니다.

국민고충처리위원회 : http://www.ombudsman.go.kr/robots.txt
   
  User-Agent:*, Googlebot
Disallow: /...
 
   
정말 난감하군요. 모든(*) 검색 봇을 포함했으면서도 구글봇(Googlebot)을 따로 추가한 이유는 뭘까요? 물론 'User-Agent' 부분도 'User-agent'라고 써야 맞습니다. 이런 철자 오류가 많은 것을 보면 서로 보고 베낀 흔적이 아닐까 싶기도 합니다.^^

대법원 역시 논리에 반하는 규칙을 정해 놓았습니다.

대법원 : http://www.scourt.go.kr/robots.txt
   
  User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Image
Disallow: /
User-agent: *
Disallow:
 
   
보시면 아시겠지만 구글봇과 구글이미지 봇에 대해 모두 막았으면서 맨 아래 부분에서는 모든 검색봇에 대해 모든 내용을 허용했습니다. 원래 의도를 유추해보자면 논리적으로 구글봇만 빼고 나머지는 허용한다 정도 되겠는데요. 따라서 맨 아래 내용은 불필요한 내용인 것이죠. 

국가 기관이 정보 공유에 힘쓰지는 못할 망정 robots.txt 쓰는 것도 맘에 안 드는데 문법까지 틀리고 있으니 한숨이 나오네요. 에효~
스마트플레이스의 글을 편리하게 구독하세요. 한RSS 추가 구글추가
크리에이티브 커먼즈 라이센스
Creative Commons License이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.

트랙백 (1) | 덧글 (6)
트랙백 주소: http://www.smartplace.kr/trackback_post_254.aspx
스마트플레이스의 트랙백은 스팸방지를 위해 관리자 승인 후 등록됩니다.
열린 정부, 닫힌 사이트
우리 나라에서 신뢰도 높은 자료를 가장 많이 갖고 있는 곳은 어디일까? 언뜻 대형 포털을 떠올렸다면 틀렸다. 대한민국 정부야 말로 가장 신뢰도 높은 자료를 가장 많이 보유하고 있는 곳이며 방대한 각종 국가 정보를 체계적으로 관리하고 있는 곳이기도 하다. 따라서 세금으로 운영되는 국가 정보는, 법적인 비밀이 아닌 이상 국민 누구나 열람 가능해야 하며 이를 활...

daybreaker 2007-11-26 02:49:00     답글 삭제
왜인지는 모르겠는데, 국가 기관들은 대체로 정보 공개에 인색한 듯합니다. 제가 작년에 학교 근로장학생 알바로 작은 홈페이지를 하나 만들었었는데, 로그인 없이 접근 가능함에도 불구하고 첫 화면만 빼고는 검색 봇 접근을 모두 제한해달라는 요구조건이 있더군요.;; 새로운 연구 주제를 제안해서 프로젝트 신청하고 그런 사이트라 그러한 연구 아이디어가 새나가면 안 된다는 발상인 것 같은데... 어차피 정말 찾을 사람은 다 찾아들어오지 않나 싶기도 하고.. 어떤 면에선 이해가 되기도 하지만 어떤 면에서는 이해가 안 되기도 하더라구요. 그렇지만 이런 종류가 아닌 일반 정부기관의 경우엔 좀 자유롭게 공개하는 것이 맞는 게 아닐까 합니다.
그만 2007-11-26 14:32:46     삭제
정보를 다루는 곳일수록 조심스럽겠죠. 하지만 공개되어야 할 정보와 공개되어선 안 되는 정보에 대한 관리가 철저하지 못해 생기는 혼란이 아닌가 싶습니다. 중요한 정보는 정말 꼼꼼하게 보안을 걸어두어야겠죠. 하지만 웹에 올린 정보들은 검색되고 공유되라고 올린 정보들인데 자체 검색마저 허술하고 외부 검색에도 열기를 꺼린다면 그 정보를 만들기 위해 들어간 세금만 아까와지는 결과가 되겠죠.

인게이지 2007-11-26 14:51:38     답글 삭제
자신들의 사이트를 스스로 잘 통제하지 못한다는 반증이겠죠

환경부 같은 경우는 정말 코믹에네요
어차피 문법에 잘못된 파일은 아무래도 상관없으니 괜찮을려나..ㅡ.ㅡ;;
그만 2007-11-26 22:54:45     삭제
검색봇이 방문했다가 '이거 뭔 듣보잡이여'라고 혀를 끌끌 찼을 겁니다.^^;

freeism 2007-11-27 10:51:31     답글 삭제
하하하 ^^; 저도 사실 robots.txt 가 뭔지만 알지 어떻게 생겨먹은 건지는 처음 봤습니다만... '재미있다'고나 해야할까요? - _-;;;

봄나무 2007-11-27 11:39:29     답글 삭제
robots.txt 파일 하나로 개발에서 운영까지의 한편의 소설이 써지는군요..^^

이름 비밀번호
홈페이지
덧글
비밀글
RSS 피드
전체글한RSS 추가 구글추가
스마트가젯북스타일
Demo Day