Q&A

robot.txt 사용법 문의

2015.10.08 01:49
857
0

User-agent: *
Disallow: /*?
 

여기서 질문은 /*? 이렇게 해놓았음에도 구글 웹마스터의 robot.txt 테스트 도구에서 

 

http://www.x86.co.kr/index.php?mid=x86&act=dispSocialxeConnectSns&service=naver&type=login

 

이 주소를 테스트로 입력 해보니 allow에 뜨더군요. 흠흠...

 

그래서 

일단 다지우고 아래와 같이 /index.php? 를 disallow에 넣어 놓고 사용해볼려고 합니다.

 

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~name/
Disallow: /*?
Disallow: /index.php?

 

목적은 구글봇이 알아서 판단한다고 하지만 아래와 같은 xe에서 만드는 긴주소를 처음부터 안가져 갔을때를 테스트 해보렬고 합니다.

 

http://www.x86.co.kr/index.php?_filter=search&mid=lounge&search_keyword=%EA%B8%B8%EC%B9%98&search_target=title_content&document_srl=745533

 

 

결론 질문 두가지

 

1. Disallow: /index.php? 이 부분을 추가하면 문제가 없을런지, 위와 같은 index.php? 가 포함된 긴주소는 안긁어 갈런지

 

2. 아래와 같은 allow 문구를 집어 넣지 않을려고 하는데 집어 넣지 않으면 전체를 안가져가게 되는건지... 

 

User-agent: Googlebot
Allow: / 
User-agent: daumoa 
Allow: /
User-agent: NaverBot 
Allow: /
 

 

궁금합니다.

skyo Lv. 10
https://x86.co.kr

댓글 11

  • Disallow: /*?

    이건 저희 사이트에서 사용해서 확인했던 내용으로 정상동작합니다. 짧은주소 외 모든 주소 차단됩니다.

    주소접근 차단을 해서 문제가 되는 것은 없습니다. 다만 구글에서 해당문자열의 주소의 페이지에 접근을 안하는거 뿐이죠.
    XE동작과는 상관 없습니다.

     

     

    allow는 저희는 넣지 않았습니다.

  • https://support.google.com/webmasters/answer/6062596?hl=ko

    이문서를 보고 적용했고 실제 색인에서까지 제외해서 기존에 색인된 것들도 짧은주소 외에는 검색에 노출되지 않도록 운영하다가 최근 다국어에 ?가 필요해서 다시 모든주소를 긁어가게 바꾸었습니다.
  • 근데 파일명을 robots.txt로 하지 않아도 동작하던가요? 뭐 파일명이 중요하지는 않겠죠... 혹시나....

    저희는 모든 봇에 제한을 하지 않았고
    User-agent: Googlebot

    구글만 따로 제한했었습니다. 왜냐면 맞춤검색에서 여러주소의 형태로 노출되는게 좀 싫어서 그랬던거라 다른 봇들은 다 가져가는게 더 좋다고 판단했었습니다.
  • @웹지기
    아. robots.txt 입니다. 그나저나 한번 테스트 해보겠습니다.
  • @웹지기
    말씀 하신대로 하단의 이것을 사용하는게 문제가 되는군요. 저걸 제외하니 /*? 여기에 긴 주소들이 필터가 걸립니다. 혹시나가 역시나네요. :-) 감사합니다.

    User-agent: Googlebot
    Allow: /
    User-agent: daumoa
    Allow: /
    User-agent: NaverBot
    Allow: /
  • @skyo
    네. 그게 의심이 되긴 했어요. allow가 우선순위가 굉장히 높다면 그렇게 될 듯합니다.
  • @skyo
    성공하셨으면 웹마스터도구의 색인제외 요청에 똑같이 해보세요. 아마 몇 일 걸릴거지만 해당 색인 다 없어집니다.
  • @웹지기
    위 ROBOT.TXT 의 내용을 똑같이 넣으라고요?
    혹시 색인 제외 요청이 GOOGLE 색인 -> URL 제거 항목인가요? 요청 하는게 없는데.. 어떻게 할까요?
  • @skyo

    네 거기가 맞는데 기억이 가물 합니다. 지금 보니 생소해 보이는건지 ㅋㅋ

    /*?

    이것을 적용한 것으로 기억이 됩니다. 도메인주소와 연결해서요...

  • @skyo
    아니면 그냥 두셔도 아마 시간이 지나면 roborts.txt 가 기존 색인에도 적용이 될 것으로 예상은 됩니다.
  • @웹지기
    네. 그렇군요. 감사합니다.