커뮤니티

AI 봇과의 전쟁

2025.11.01 17:35
449
4

1. 휴먼, 내 트래픽 요금 좀 대신 내줘

 

예전에는 로봇이라고 하면 사용자 유입에 도움이 되는 구글이나 네이버 등의 검색로봇과, 다른 사이트의 게시물을 무단 복제하기 위한 (흔히 "파싱"이라고 했죠) 크롤러가 대부분이었습니다. 그러나 요즘 인터넷에 돌아다니는 로봇의 절대 다수는 LLM을 훈련시키기 위한 "AI 봇"입니다. 인간이 작성한 컨텐츠를 많이 떠먹일수록 LLM의 성능이 좋아지니, 모두들 최대한 많은 글과 사진 등을 긁어모으려고 혈안이 되어 있어요.

 

작년 이맘때 구충제 모듈을 처음 내놓았을 때만 해도, 자주 출몰하는 AI 봇들은 대부분 user-agent로 구분할 수 있었습니다. ChatGPT, Claude 등 세계적으로 유명한 AI 서비스를 제공하는 회사들은 물론,  비교적 작은 회사들도 대부분 자기 이름을 걸고 수집하는 예의 정도는 있었거든요. 이것들은 robots.txt를 통해 거절하기도 쉬웠고, 차단하기도 쉬웠습니다.

 

그러나 어딘가 떳떳하지 못한 연구자 집단부터 그냥 바이브코딩을 배우는 학생까지, 개나소나 닥치는 대로 데이터를 긁어모으기 시작하면서 상황이 바뀌었습니다. 이제 user-agent는 속이는 것이 기본이고, 디도스 공격에나 사용하던 기법들까지 속속 도입하고 있어요. 크롤링과 디도스를 구분하기도 어려운 지경입니다.

 

특히 글이 많이 쌓여 있는 커뮤니티 사이트는 접근 경로에 따라 무수히 많은 URL의 조합이 존재하기 때문에, 이런 로봇이 한 번 들어오면 빠져나가지 못하고 계속 헤집고 다닙니다. 하루에도 수십만 번씩 접속하는 바람에 서버 부하가 높아지는 것은 물론, 트래픽 요금이 적게는 몇만 원에서 많게는 몇백만 원씩 발생하기도 하지요.

 

(게시판 상단의 제목/조회수/추천수 등의 컬럼 이름을 클릭하거나 드롭다운 메뉴에서 정렬 기준을 선택하면 그 컬럼으로 정렬되는 기능이 이 녀석들에게는 최고의 놀이터입니다. 정렬 기준만 바꾸었을 뿐인데, 새로운 게시판이라고 인식하고 처음부터 다시 긁어가기 시작하거든요. 꼭 필요하지 않은 정렬 기준 변경 기능(sort_index=AAA&order_type=BBB)이나 게시판을 다른 형태로 바꾸어 보는 기능(listStyle=CCC)은 스킨에서 모두 제거하는 것을 추천합니다.)

 

image.png      image.png

[스케치북 스킨에서 특히 문제가 되는 기능들]

 

 

2. 가정용 프록시의 급부상

 

올해 초에는 중국이나 동남아시아의 클라우드에서 VPS나 서버리스 서비스를 통해 IP를 대량 확보하여 크롤링하는 녀석들도 있었지만, 이제는 그것도 유행이 지났습니다. 특정 클라우드 업체를 통째로 차단해 버리는 것은 어렵지 않거든요. 만만한 중국 클라우드는 대부분의 사이트에서 이미 다 차단되었어요.

 

무단 크롤링의 최신 트렌드는 가정용 프록시(Residential Proxy)를 통해 수백만 개의 IP를 돌려쓰는 것입니다.

 

가정용 프록시는 말 그대로 가정용 인터넷 회선의 유동 IP를 사용하는 프록시입니다. 요즘은 유선 인터넷보다 휴대폰으로 웹서핑하는 경우가 더 많으니, 5G나 LTE 같은 모바일 데이터 네트워크도 포함됩니다. 정상적인 사용자들이 접속하는 IP 대역 속에 완벽하게 숨어들어서 구분이 불가능하게 된 것입니다.

 

image.png

image.png

[ethical은 개뿔...]

 

흔히 프록시라고 하면 Squid 같은 프록시 소프트웨어가 설치된 특정 서버를 거쳐서 사이트에 접속하여, 실제 사용자의 IP가 아닌 서버의 IP에서 접속하는 것처럼 보이도록 하는 기술이죠. 그런데 IDC에 입주한 서버가 아닌 가정용이나 휴대폰 회선을 어떻게 저렇게 많이 확보하여 24시간 안정적으로 운영할 수 있을까요? 보이스피싱 조직처럼 대포폰이라도 왕창 개통한 것일까요?

 

얼핏 말도 안 되는 것 같은 저 1억 5천만 IP의 비밀은, 이런 프록시 업체들이 보유한 기술이 원래 디도스 공격에 쓰던 봇넷(botnet)이라는 사실입니다. 보통 디도스에서는 공격자가 지령을 내리면 봇넷에 소속된 모든 기기들이 특정 사이트에 동시에 접속하여 서버를 마비시킵니다. 이제는 그렇게 한꺼번에 쓰지 않고, 고객이 특정 URL을 크롤링해 달라고 요청하면 그 때 온라인 상태인 기기 하나를 골라서 지령을 내립니다. 실제 응답 데이터를 받아서 고객에게 전달까지 해 주지요. 훨씬 정교해졌습니다.

 

즉, "가정용 프록시"라고 하는 것은 귀곰 형님이 리뷰하실 만한 (음, 집에서 편하게 워닝을 우회할 수 있도록 도와 주는?) 귀여운 가전제품이 아니라, 프록시 역할을 하는 악성코드에 감염된 수천만 대의 컴퓨터, 휴대폰, IoT 기기들을 불특정 다수에게 빌려주는 음침한 사업입니다. 뭔가 대단한 IT 기업인 것처럼 꾸며 놓았지만, 사실 언제 FBI가 들이닥쳐도 이상하지 않겠지요. 누가 그 프록시를 써서 테러 계획이라도 세우다가 발각된다면...?

 

이런 악성코드는 수상한 문자를 클릭하거나 출처불명의 apk 파일을 설치해서 감염되는 것도 아닙니다. 많은 사람들이 사용하는 게임이나 앱에 프록시 라이브러리(SDK)를 끼워서, 앱스토어와 플레이 스토어를 통해 당당하게 배포하고 있다고 합니다. 프록시 업체들은 애드몹 같은 일반적인 광고보다 더 높은 수익률을 약속하며 앱 개발사에 적극적으로 영업하여 자사의 라이브러리를 탑재하도록 하는데, 물론 앱스토어 심사중일 때는 수상한 동작을 하지 않고 잘 숨어 있다가 나중에야 본색을 드러내겠지요.

 

워낙 많은 기기에 트래픽이 분산되기 때문에, 감염된 기기의 주인은 자기 폰이 남의 프록시 역할을 하느라 데이터 사용량이 평소보다 많아지거나 배터리 수명이 짧아지는 것을 쉽게 눈치채지 못합니다. 미래의 인류를 먹여살릴(?) AI 봇 개발자들은 매달 일정한 요금으로 전세계 수백만 개의 IP를 자유롭게 돌려쓸 수 있지요. 음지에 머물던 디도스 봇넷이 요즘 핫한 "구독경제"로 탈바꿈하는 순간입니다.

 

 

3. 이걸 어떻게 차단해?

 

디도스와 거의 똑같은 수법이니, 이 분야의 방어력은 클라우드플레어(클플)가 최고입니다. 얼마나 많은 사람들이 AI 봇 때문에 골치를 겪고 있는지, 클플에서도 요즘은 아예 AI 봇 차단을 주력 서비스로 광고하고 있을 정도이죠. 완벽하지는 않지만, 해외 서버라면 클플에 가입하고 AI 봇 차단 기능을 켜기만 해도 수상한 트래픽이 눈에 띄게 줄어드는 것을 볼 수 있어요.

 

문제는 카페24, 고도몰, 스마일서브 등 국내 호스팅 업체를 이용하는 사이트입니다.

 

대한민국은 나름 선진국이라고 하는 나라들 중 트래픽 단가가 가장 높은 편이고, 해외 트래픽은 그 비싼 단가보다도 몇 배나 더 비싸기 때문에, 중소규모 커뮤니티라면 AI 봇이 한 번만 휩쓸고 지나가도 집안 기둥뿌리가 흔들리곤 하죠. 디도스 공격이 순식간에 서버를 죽이는 맹수라면, 가정용 프록시를 사용하는 AI 봇은 트래픽 요금으로 서서히 피를 말리는 기생충 같은 놈들입니다.

 

image.png

[국내 모 호스팅 업체의 트래픽 단가표]

 

심지어 국내 사이트에는 클플을 적용하는 것도 쉽지 않습니다. 높은 트래픽 단가 때문에 클플도 GG치고 대부분 일본이나 미국으로 연결시키거든요. 접속 속도가 크게 느려지는 것은 물론, 모든 트래픽이 해외 트래픽으로 과금되어 버리는 대참사가...!

 

이런 바가지 회선사용료가 수십 년째 그대로인 이유는 우리나라의 인터넷 환경이 마치 갈라파고스를 연상시킬 만큼 폐쇄적이기 때문입니다. 유튜브, 넷플릭스 등 세계적으로 유명한 특정 어플을 제외하면, 우리나라 네티즌들은 해외 사이트를 방문하는 일이 거의 없잖아요. 국내 서버를 사용하는 한국어 커뮤니티라면 절대 다수의 회원이 국내에서 접속한다는 뜻입니다.

 

이런 폐쇄성을 역이용하면 어떨까요?

 

AI 봇이 사용하는 IP는 절대 다수가 해외에 있고, 반대로 국내 커뮤니티 이용자는 절대 다수가 국내에 있으니, 이 패턴을 벗어나는 극소수의 "해외 거주 휴먼"들만 약간의 불편을 감수하면 절대 다수의 이용자와 운영자 모두 AI 봇의 위협에서 벗어날 수 있다는 뜻입니다.

 

외국인들이었다면 "왜 우리가 불편을 감수해야 해?"라고 반발했겠지만, 우리 한국인의 정서는 다르잖아요? 충분히 이해해 줄 것 같다는 생각이 들었습니다. 그래서 최근 몇몇 커뮤니티 운영자분들과 AI 봇 대응책을 의논하면서 이 아이디어를 꺼내 보았는데, 긍정적인 반응이 꽤 많더군요.

 

그래서 구충제 모듈 v2에서는 해외 IP에게만 캡챠(CAPTCHA)를 뿌려주는 기능을 추가했습니다.

 

fde06af231203011f313234b44ca170c.png

 

색깔만 다를 뿐, 클플을 통해 디도스 방어하는 사이트에서 많이 보던 기능이죠? 자전거나 횡단보도 사진 몇 개를 맞추면 정상적으로 사이트를 이용할 수 있습니다.

 

캡챠 화면은 최대한 단순하게 구성하여, 용량을 1KB대로 줄였습니다. 저 화면을 가져가는 것까지 막을 수는 없지만, 예쁜 테마를 적용하여 수십~수백KB에 달하는 평소 커뮤니티 화면을 가져가는 것보다는 트래픽이 많이 절약되겠지요.

 

캡챠 풀기가 불편한 분들을 위해, 로그인 창을 띄우는 옵션도 있습니다. 이 기능을 사용하면 해외 접속자 한정으로 회원 전용 커뮤니티가 됩니다.

 

물론 구글봇, 구글 광고, SNS 공유 썸네일 생성 등 꼭 필요한 로봇은 해외 IP에서도 접속을 허용합니다.

 

효과가 얼마나 지속될지 모르겠지만 (기존의 구충제 모듈은 불과 몇 달만에 무용지물이 되어 버렸죠 ㅠ) 또 새로운 꼼수가 나오면 거기에 맞추어 업데이트하면 되겠지요. 봇 따위 걱정할 필요 없을 만큼 트래픽 요금이 세계적인 트렌드에 맞추어질 때까지, 창과 방패의 싸움은 계속됩니다.

 

기진곰 Lv. 26
이 구역의 전속 곰탱이입니다. 라이믹스를 개발하고 있어요.

댓글 11

  • 컴퓨터와 한바탕 전쟁 치루고 왔더니

    여긴 또 AI 봇과의 전쟁이네요. 하하..

    기진곰님 글 쭈욱 훝어보는데 귀곰 형님이 눈에 띄네요.

    귀곰형님이 누군지 모르지만 

    기진곰하고 닉네임 비슷해 그런지 친근감이 느껴져요.

    귀곰 이름이 귀여워요. 

  • @제이엔지

    유튜버 귀곰님은 가전제품 리뷰어예요

  • @마신

    기진곰님 글 봐도 모르는게 많아서

    그냥 훝어만 보고 말한건데

    귀곰형님이 이제 보니 유튜버였네요. 하하하~

  • 제 사이트엔 특정 검색어로 끊임 없이 검색을 시도하는 이상한 봇의 접근 혹은 공격이 있는데 아이피가 매번 바뀝니다.

    지난 24시간 동안 2000개의 아이피로 접근했습다 허허

  • @라이믹서기

    봇들이 프록시 쓰는 법을 배운 이상, IP는 사실상 무제한이 되었습니다. 스크린샷의 업체들만 해도 1억 개 이상의 IP를 돌려쓸 수 있다고 뻔뻔하게 광고하죠. 특정 IP를 차단하는 것은 거의 무의미해졌어요. 해외 보안 전문가의 기고문을 읽어봐도 이제는 세션 단위로 구분하는 수밖에 없다고 하더군요.

  • 5G나 LTE 같은 모바일 데이터 네트워크로 들어오면 답이 없긴 해요

    특히 회원들도 모바일 데이터 로 들어오는경우 IP로 조회 하다보면 발견한게 회원들끼리 생각보다 많이 IP가 겹치더라구요 

    유동IP인터넷이 동단위로 제한되서 바뀐다면 모바일IP는 최소 구단위 시단위로 제한되서 바뀌는것 같아요.

    처음에는 멀티게정 사용자가 아닐까 했는데 1년단위로 살펴보면 인터넷회선과 달리 모바일데이터는

    자주 바뀌다보니 겹치는 경우가 상당하더라구요

    접속 날짜와 시간으로 구분하는정도입니다.

    그러니 모바일 데이터는 IP 차단도 어려워요. 차단하면 회원들중에 엉뚱한사람이 차단되버릴수 있어서.

    프록시로 국내에서 가정용 프록시(Residential Proxy)로 모바일데이터로 돌린다면 IP차단은 못하니 규칙성등을 발견해서

    막아야 할것 같네요.

     

    AI봇같은 사기꾼이 있는데 프록시 사용해서 IP를 계속 바꾸면서 3자사기로 사기치는 사람이 있어서

    해외IP 글쓰기 수정 삭제 댓글작성 댓글수정 댓글삭제 제한 애드온 만들어서 적용했더니 잠잠해졌네요.

     

    https://rhymix.org/qna/594274

    8년만에 숙제했습니다. 감사합니다.

  • @마신

    오우, 국내 모바일 IP로 대규모 프록시를 돌린다면 생각만 해도 끔찍하네요.

     

    다행히(?) 웬만한 성인 사이트는 접속하지도 못하는 한국 IP 따위는 프록시 봇넷 운영자 입장에서도 별로 매력이 없는지, 메이저급 업체들이 적극적으로 모집하는 것 같지는 않습니다. ㅋㅋㅋ

     

    안 그래도 통신3사 죄다 해킹당하고 캄보디아 보이스피싱 조직이다 뭐다 해서 전국민이 예민해져 있는 상황이니, 국내에서 대규모로 프록시 돌리는 앱 하나라도 발견되면 엄청 시끄러워질 것 같기도 하네요. 혹시라도 조용히 묻힌다면 저희가 먼저 신고 넣고 제보 넣고 떠들썩하게 만들어야지요.

  • IP로 판별하는건 이제 좀 어려워진 것 같아요.

     

    스팸, 크롤러 차단은 아직 특정 대역으로 오는 것들이 있지만, 다중계정 검증을 위한 수단으로는 IP 활용은 오래 전부터 퇴색했고요. 지역 커뮤니티 같은 접속자의 지역을 구분해서 보여줘야하는 사이트의 경우도 마찬가지이고요.

     

    셀룰러 IP도 넘쳐나는 알뜰폰을 이용해 (이제는 제한이 강해졌지만) 한 사람 명의로 수십~백단위 개통도 가능했었고요.

     

    애플, MS, 구글 등의 메이저 브라우저에서도 유/무료 프록시를 제공하기도 하고요. 유료도 다른 서비스와 묶음으로 제공하는거라서 비용이나 접근성 장벽이 아주 높지는 않아서 의외로 많이 쓰이는 것 같아요.

     

    브라우저 핑거프린트도 브라우저에서 노이즈 조금 섞어서 회피하는 기능도 제공하고 있고요. 

  • @kkigomi

    적어주신것들 포함해서 의외로 창과 방패 싸움에서 방패가 할만한게 제한적이라, 최선을 다하지 않는 로봇들만 노력해서 잡아내는게 최선 아닐까 생각해요.

    대규모 서비스인 Perplexity AI같은 경우에도 robots.txt로 차단해도 접속하고, 차단당하면 특정 UA와 프록시 대역대로 우회접속한다고 발칵 뒤집힌적이 있어서 그거보고 포기했습니다.

  • @kkigomi

    저도 이 분 의견에 동의합니다.

     

    국내에도 공식 비공식적으로 가정용 ip 대여 해주는 곳이 이미 많이 영업중입니다.

     

  • 그렇지 않아도 "GoogleOther" 이놈 때문에 속을 좀 썪혔었는데..

    이놈은 답을 못찾아서 아예 IP 대역으로 틀어막았습니다.

     

    국가편 차단목적으로 GeoIP를 이용하게 고쳐서 사용하고 있었는데 자체적으로 국가별 차단이 가능해졌군요.

    감사합니다.

    업데이트 했습니다.

    캡차설정을 따로 할 필요가 없군요. 기존 입력되있는 정보가 그대로 이용되는군요.

    굿입니다.