User-agent: *
Disallow: /*?
여기서 질문은 /*? 이렇게 해놓았음에도 구글 웹마스터의 robot.txt 테스트 도구에서
http://www.x86.co.kr/index.php?mid=x86&act=dispSocialxeConnectSns&service=naver&type=login
이 주소를 테스트로 입력 해보니 allow에 뜨더군요. 흠흠...
그래서
일단 다지우고 아래와 같이 /index.php? 를 disallow에 넣어 놓고 사용해볼려고 합니다.
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~name/
Disallow: /*?
Disallow: /index.php?
목적은 구글봇이 알아서 판단한다고 하지만 아래와 같은 xe에서 만드는 긴주소를 처음부터 안가져 갔을때를 테스트 해보렬고 합니다.
http://www.x86.co.kr/index.php?_filter=search&mid=lounge&search_keyword=%EA%B8%B8%EC%B9%98&search_target=title_content&document_srl=745533
결론 질문 두가지
1. Disallow: /index.php? 이 부분을 추가하면 문제가 없을런지, 위와 같은 index.php? 가 포함된 긴주소는 안긁어 갈런지
2. 아래와 같은 allow 문구를 집어 넣지 않을려고 하는데 집어 넣지 않으면 전체를 안가져가게 되는건지...
User-agent: Googlebot
Allow: /
User-agent: daumoa
Allow: /
User-agent: NaverBot
Allow: /
궁금합니다.
댓글 11
Disallow: /*?
이건 저희 사이트에서 사용해서 확인했던 내용으로 정상동작합니다. 짧은주소 외 모든 주소 차단됩니다.
주소접근 차단을 해서 문제가 되는 것은 없습니다. 다만 구글에서 해당문자열의 주소의 페이지에 접근을 안하는거 뿐이죠.
XE동작과는 상관 없습니다.
allow는 저희는 넣지 않았습니다.
이문서를 보고 적용했고 실제 색인에서까지 제외해서 기존에 색인된 것들도 짧은주소 외에는 검색에 노출되지 않도록 운영하다가 최근 다국어에 ?가 필요해서 다시 모든주소를 긁어가게 바꾸었습니다.
저희는 모든 봇에 제한을 하지 않았고
User-agent: Googlebot
구글만 따로 제한했었습니다. 왜냐면 맞춤검색에서 여러주소의 형태로 노출되는게 좀 싫어서 그랬던거라 다른 봇들은 다 가져가는게 더 좋다고 판단했었습니다.
User-agent: Googlebot
Allow: /
User-agent: daumoa
Allow: /
User-agent: NaverBot
Allow: /
혹시 색인 제외 요청이 GOOGLE 색인 -> URL 제거 항목인가요? 요청 하는게 없는데.. 어떻게 할까요?
네 거기가 맞는데 기억이 가물 합니다. 지금 보니 생소해 보이는건지 ㅋㅋ
/*?
이것을 적용한 것으로 기억이 됩니다. 도메인주소와 연결해서요...