검색 봇의 색인에 대해 추가 질문드립니다.
CMS/프레임워크 | Rhymix 2.1 |
---|---|
개발 언어 | PHP 8.3 |
검색 봇들이 무엇을 색인하나 살펴보다가 2가지 특이한 문자열 접근이 많아서 질문드립니다.
1) 쿼리 문자열에 아래처럼 '?t=' 로 시작하고 뒤에 숫자만 다른 접근이 많이 있습니다.
검색을 해도 나오지 않아서 궁금합니다. 이런 접근도 robots.txt 에서 차단해도 괜찮은 건가요?
?t=1730465793
이러한 접근의 경우 모든 경로는 아래처럼 일반문서 경로가 아닌 것이 대부분입니다.
/files/cache/assets ~~
/modules/board/skins/sketchbook ~~
/common/js/plugins ~~
2) ?act=copytrack 의 문자열로 접근하는 봇들도 종종 있는데,
이렇게 접근하는 봇도 무슨 용도인지도 모르겠고, 함께 차단해도 괜찮은 건가요?
flowerrain
Lv. 4
댓글 2
2. 대부분 구형 워드프레스 혹은 cms들을 찾는 목적으로 온갖곳에 리퀘스트를 뿌리는 넷봇들입니다. 어느 경로로 검색하는지 면밀히 살펴보시고 공통점을 찾아 차단하시면 됩니다.
정말 검색에 노출된다는 의미의 "색인"을 하던가요? 아니면 그냥 서버 로그에 남는 것 뿐인가요?
하나의 페이지를 제대로 색인하려면 거기서 참조하는 CSS, JS 리소스도 모두 한 번씩 봐야 하기 때문에, 서버 로그에 남는 것은 정상입니다. 요즘 검색엔진들은 실제 브라우저처럼 렌더링해서 보니까요.