robot.txt 사용법 문의

skyo

2015.10.08 01:49

857

User-agent: *
Disallow: /*?

여기서 질문은 /*? 이렇게 해놓았음에도 구글 웹마스터의 robot.txt 테스트 도구에서

http://www.x86.co.kr/index.php?mid=x86&act=dispSocialxeConnectSns&service=naver&type=login

이 주소를 테스트로 입력 해보니 allow에 뜨더군요. 흠흠...

그래서

일단 다지우고 아래와 같이 /index.php? 를 disallow에 넣어 놓고 사용해볼려고 합니다.

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~name/
Disallow: /*?
Disallow: /index.php?

목적은 구글봇이 알아서 판단한다고 하지만 아래와 같은 xe에서 만드는 긴주소를 처음부터 안가져 갔을때를 테스트 해보렬고 합니다.

http://www.x86.co.kr/index.php?_filter=search&mid=lounge&search_keyword=%EA%B8%B8%EC%B9%98&search_target=title_content&document_srl=745533

결론 질문 두가지

1. Disallow: /index.php? 이 부분을 추가하면 문제가 없을런지, 위와 같은 index.php? 가 포함된 긴주소는 안긁어 갈런지

2. 아래와 같은 allow 문구를 집어 넣지 않을려고 하는데 집어 넣지 않으면 전체를 안가져가게 되는건지...

User-agent: Googlebot
Allow: /
User-agent: daumoa
Allow: /
User-agent: NaverBot
Allow: /

궁금합니다.

skyo Lv. 10

https://x86.co.kr

웹지기

2015.10.08 02:03

Disallow: /*?

이건 저희 사이트에서 사용해서 확인했던 내용으로 정상동작합니다. 짧은주소 외 모든 주소 차단됩니다.

주소접근 차단을 해서 문제가 되는 것은 없습니다. 다만 구글에서 해당문자열의 주소의 페이지에 접근을 안하는거 뿐이죠.
XE동작과는 상관 없습니다.

allow는 저희는 넣지 않았습니다.

추천 0
웹지기

2015.10.08 02:06

https://support.google.com/webmasters/answer/6062596?hl=ko

이문서를 보고 적용했고 실제 색인에서까지 제외해서 기존에 색인된 것들도 짧은주소 외에는 검색에 노출되지 않도록 운영하다가 최근 다국어에 ?가 필요해서 다시 모든주소를 긁어가게 바꾸었습니다.

추천 0
웹지기

2015.10.08 02:12

근데 파일명을 robots.txt로 하지 않아도 동작하던가요? 뭐 파일명이 중요하지는 않겠죠... 혹시나....

저희는 모든 봇에 제한을 하지 않았고
User-agent: Googlebot

구글만 따로 제한했었습니다. 왜냐면 맞춤검색에서 여러주소의 형태로 노출되는게 좀 싫어서 그랬던거라 다른 봇들은 다 가져가는게 더 좋다고 판단했었습니다.

추천 0
skyo

2015.10.08 03:57

@웹지기

아. robots.txt 입니다. 그나저나 한번 테스트 해보겠습니다.

추천 0
skyo

2015.10.08 04:52

@웹지기

말씀 하신대로 하단의 이것을 사용하는게 문제가 되는군요. 저걸 제외하니 /*? 여기에 긴 주소들이 필터가 걸립니다. 혹시나가 역시나네요. :-) 감사합니다.

User-agent: Googlebot
Allow: /
User-agent: daumoa
Allow: /
User-agent: NaverBot
Allow: /

추천 0
웹지기

2015.10.08 04:53

@skyo

네. 그게 의심이 되긴 했어요. allow가 우선순위가 굉장히 높다면 그렇게 될 듯합니다.

추천 0
웹지기

2015.10.08 04:54

@skyo

성공하셨으면 웹마스터도구의 색인제외 요청에 똑같이 해보세요. 아마 몇 일 걸릴거지만 해당 색인 다 없어집니다.

추천 0
skyo

2015.10.08 05:41

@웹지기

위 ROBOT.TXT 의 내용을 똑같이 넣으라고요?
혹시 색인 제외 요청이 GOOGLE 색인 -> URL 제거 항목인가요? 요청 하는게 없는데.. 어떻게 할까요?

추천 0
웹지기

2015.10.08 05:59

@skyo

네 거기가 맞는데 기억이 가물 합니다. 지금 보니 생소해 보이는건지 ㅋㅋ

/*?

이것을 적용한 것으로 기억이 됩니다. 도메인주소와 연결해서요...

추천 0
웹지기

2015.10.08 06:02

@skyo

아니면 그냥 두셔도 아마 시간이 지나면 roborts.txt 가 기존 색인에도 적용이 될 것으로 예상은 됩니다.

추천 0
skyo

2015.10.08 06:24

@웹지기

네. 그렇군요. 감사합니다.

추천 0