search_keyword= 크롤링을 막고 싶습니다
CMS/프레임워크 | Rhymix 1.9 |
---|---|
개발 언어 | PHP 7.0 |
아래 사진을 보면 이상하게 search_keyword= 이런식으로 구글에 등록되있더라고요 막상 들어가면 아무것도 안뜨고 그냥
이동도 이상하게 되길래 search_keyword= 부분을 크롤링이 안되게 막을려고 하는데요 어떻게 해야될지 궁금합니다
robot.txt부분을 건들어서 search_keyword= 크롤링 못하게 막아야 할까요?
댓글 32
참고하세요
여쭤봐도 될까요? 저같은 경우는 구글콘솔 서치 Sitemaps 부분에 사이트맵을 등록하거든요
그런데 저렇게 로봇 부분에도 왜있는지 궁금합니다 ...ㅎㅎ
색인된거는 그 전에 크롤링된 것일 겁니다.
아직까지 해결책을 모르겠습니다 웹지기님께서 항상 말씀 하신것처럼 구글봇이 아닐수도 있다고 하셔서 다른쪽에 문제인지 계속 살펴봐도 해답을 알수가 없네요... 구글봇 아이피를 차단 시키면 트래픽은 또 그때 처럼 60G 이상 나오지 않고
하루에 5G 발생하고 그렇게되면 아이피도 차단 시켜서 구글에 크롤링도 안되고 또 크롤링이 안되니 아이피를 풀면 그 동시에 트래픽이 또 밀쳐 날뛰니...예전에 다른 사이트 운영할때는 이런적도 없고 엑스이타운에 검색 해봤지만 이런 현상이 생긴사람은
없으신거 같으시네요
1.구글 아이피가 하나가 아닐텐데 여러대역을 차단하신건가요?
2.구글 봇이 아이피가 여러개가 아니라서 차단한 아이피대역 외 다른 아이피로 크롤링 할수 있을 수도 있어 그럴지 모르겠습니다.
정확히 차단을 언제 하셨고 차단을 다시 푼게 언제인가요?
제가 검색해 보니 처음에 언급하신 4월 29일 이후 크롤링해서 색인이 계속 되고 있던데요 ?
구글이 범인이 아닌거 아닌가요?
그리고 지금 정도의 방문 규모로 볼때 하루 5G 정도면 구글에서 크롤링을 하고 있다고 보여집니다.
1. 네 그때 처음으로 60G 트래픽이 발생했을때 그때 당시에는 구글인거 같아서 구글 아이피 66.249 아이피를 차단했습니다 그래도 계속 발생되길래 66.249.*.* 66.249 로 시작하는 아이피는 싹다 모조리 차단시켰습니다
차단 시키니 더이상 트래픽이 발생하지 않더라고요
2.차단은 60G 트래픽이 발생하고서 4월29일 새벽부터 차단을 시작했습니다 그러고 3일 있다가 다시 아이피를 차단해제를 하니 평소대처럼 하루 1~2G 발생 하더라고요 그때 말씀해주신 robots 부분도 추가 했었습니다 그렇게 다시 트래픽이 정상으로 됬지만
5월21일부터 다시 23G 올라가기 시작했습니다
+ 네 맞습니다 하루에 3~4G 정도 나옵니다
66.249.* 의 아이피들에 의해 하루 50G 이상 발생이 되는게 확인이 되신거죠?
그럼 구글봇이 맞는건데 지금 이런 일이 벌어지는게 이해는 가지 않네요.
이런 사례가 흔했으면 저도 많이 간접적으로 알수 있었을텐데 그렇지 못했거든요.
저 아이피들로만 폭증하는 트패릭의 전체가 유발이 되고 있다면 구글에서 운영하시는 사이트에 짧은 시간에 반복적으로 크롤링을 계속 한다는 이야기가 되는데요...
참고적으로 저희 사이트도 말씀하신 아이피 대역은 계속 방문하고 있습니다.
그때 어떤분께서 한번 리퍼러 설치해서 확인해보라고 해서 확인을 해봤습니다 예전에 60G 발생 했을때 비슷한 아이피 입니다
66.249. 아이피를 차단 안하면 이렇게 계속 들어오는게 잡힙니다 다시 아이피를 차단하면 66.249 아이피들은 들어오지 못하구요 동시에 트래픽도 멈춥니다
차단하면 못들어오고 차단 풀면 들어오는건 너무 당연한거구요.
60G의 대부분이 저 아이피들로만 발생한거지에 대한 객관적인 데이터를 확보하셨나는 겁니다.
차단했더니 트래픽 증가가 멈췄다. 이건 의심할 수 있는 가설은 되기는 합니다.
저게 저렇게 계속 들어오더라도 트래픽이 생각보다 작을 수 있거든요.
그렇군요 :) 그럼...저 마지막으로 이 사진에 대해서 어떻게 생각하시는지 궁금합니다
아래 사진을 보시고서 정상인지 비정상인지만 알려주시면 감사하겠습니다
현재 구글 ip를 막았을때 트래픽 증가가 멈춘다는건 어느정도 테스트로 결론을 내릴 수 있는 근거는 됩니다.
그런데 저에게 봐달라고 해주신 이미지에 특정 에이전트가 발생시키는 트래픽 발생량 전부가 구글 ip인지는 저희가 지금 확신할 수는 없는 마지막 단계가 남았다는거죠.
지금까지의 정황으로 볼때는 구글이 과도하게 크롤링을 반복? 적으로 한다고도 볼 수 있습니다.
이러한 상황에서 지금 클라우드플레어를 굳이 쓰실 필요가 있는지에 대한 의문도 듭니다. 어차피 이런 트래픽을 캐시해주지 않는다면 말이죠.
지금 클라우드플레어로 인해 먼저 주신 이미지에서 ip로 확인하는 것이 의미가 없는게 맞는 상황인거죠?
구글이 범인이라면 참 해법도 없는 난감한 상황인 것 일겁니다.
그러네요.... 지금 에서는 클라우드 플레어 효과도 없네요 말씀하신대로 ip로 확인할수있게 모니터링을 하고 싶은데요
확인을 해야되는데 ip집단? 이라고 하셨나요? 혹시 아래 사진이 ip 확인하는 부분인게 맞는건가요?
네. 거기에 모두 지금 클라우드 플레어 아이피가 찍히기 때문에 구글인지 아닌지 땅땅땅 할 수 없는거죠.
저라면 클라우드플레어 해제하고 모니터링해서 결론 내리고 그 후 고민해보겠습니다. 사실 구글이 범인이라도 할 수 있는 건 거의 없을 것 같긴 합니다.
클라우드플레어에서 구름만 꺼버리면 DNS만 클라우드플레어를 이용하고 CDN 은 작동하지 않습니다.
- 제가 말씀 드린 클라우드플레어 해제
아하! 현재 제가 클라우드 플레어 사용중이니 아이피가 클라우드 플레어 아이피로 찍히기 때문에 정확히 누군인지
확인이 불가능하니 클라우드 플레어 해제 하고서 모니터링해서 결론을 내리면 되는거군요
+구름만 끄면 되는건가요? 네임서버는 건들 필요 없나요?
네. 구름만 끄면 됩니다. 클라우드플레어 DNS는 아주 성능이 좋아 계속 쓰시는게 좋아요.
구름끄고 적용되는데 20분 정도 소요될 수 있습니다.
클플 쓰면 얘기가 좀 달라집니다.
이미 클플 푸셨으니 진단하시고 클픅 이외의 아이피는 접속 못하도록 조치하시는게 좋습니다.
제가 어떻게 해야될지 알수 있을까요오오?
위 아이피를 클라우트 플레어에서 접속하는 아이피 입니다.
위 아이피를 제외한 나머지 아이피를 다 접속할수 없게 방화벽에서 설정하시면 됩니다.
80 또는 433 포트 접속만 차단하세요. ssh 이런거 차단하면 안됨