AI들의 침범이 시작되었나 봅니다.
AI 봇들이 이제는 개인적인 웹사이트에도 과도한 트래픽을 만들고 있나 보네요.
이번에는 ChatGPT의 GPT봇 그리고 아마존닷컴의 아마존봇에 대한 이야기 입니다.
또 다시 카페24에서 알람이 떴습니다.
트래픽의 80%가 소진 되었다는 문자 메시지가 저녁 시간대에 왔습니다.
페이스북의 봇 때문에 트래픽 초과로 인해 방문 차단 설정을 한지 얼마 안되었는데 ‘또? 어디서?’ 라는 생각을 가지며 살펴보았습니다.
평소 발생하는 트래픽 용량은 300MB 남짓인 블로그도 아닌 웹사이트입니다.
운영 기간은 10년이 넘었으니 그동안 쌓인 데이터가 적은 편은 아닙니다.
9월 26일부터 2GB 정도의 트래픽이 소진되기 시작하였습니다.
참고로 이 카페24 호스팅 계정은 하루 한도치가 2.5GB 입니다.
이렇게 약 20일 동안 2GB 정도의 트래픽이 소진이 되었습니다.
한도치에 도달하지는 않아 그냥 냅두었는데…
10월 16일 부터는 한도치에 도달하기 시작하여 저녁 시간대면 트래픽 소진 안내 페이지로 연결이 되기 시작하였습니다.
이제는 안되겠다 싶어 다시 한번 살펴보았습니다.
70%에서 75% 정도의 트래픽을 소진 시키는 것은 오픈 AI ChatGPT의 봇인 GPT봇이었습니다.
이 챗봇이 9월 26일 부터 방문하기 시작하여 하루에 대략 2GB 정도의 트래픽을 소진하고 있었습니다.
10월 16일부터 합류(?)하기 시작한 것은 아마존닷컴의 아마존봇이였습니다.
아마존봇도 방문하기 시작하면서 한도치까지 트래픽 소진이 발생하는 거였습니다.
GPT봇과 아마존봇 방문 차단하기
GPT봇과 아마존봇의 차단은 아주 간단합니다.
Robots.txt에 아래와 같은 문구를 삽입만 해주면 됩니다.
User-agent: GPTBot #ChatGPT’s agent
Disallow:
User-agent: Amazonbot # Amazon’s user agent
Disallow:
오픈 AI 봇들의 크롤링
아마존봇을 보니 아마존닷컴도 AI를 준비 중인 것 같고 페이스북도 AI를 준비중이고…
오픈 AI들이 자신의 서비스를 위해 이렇게 크롤링 봇들을 대거 활동시키고 있나 봅니다.
그나마 카페24와 같이 일일 트래픽 한도치가 있는 호스팅 계정이기에 문제가 아니었습니다만 하루 트래픽 한도치가 없고 초과되는 트래픽에 대한 비용을 청구하는 호스팅 계정이라면 추가 비용 지출이 불가피해 보입니다.
미리 설정을 해두는 것도 한가지 방법일 듯 합니다.
마지막으로 AI 들이 자신들의 데이터 구축 및 학습을 위해 이렇게 무분별 하게 크롤링 하는 것에 대해 차단을 해야 하는 지 아님 허용을 해야 하는 지 아직 정답은 없는 것 같습니다.
사실 이 점에 대해서는 아직도 개인적으로는 고민 중입니다.
AI 들이 검색 서비스를 출시할 것은 확실하고 검색 결과에 출처를 표시하는 형태로 노출이 될 것인데.. 이렇게 허용을 하는 것이 노출에 도움이 될 것인지도 아직 확실하지 않기에.. 고민이네요.
소유자들의 개인적인 판단에 맡겨야 할 부분인 듯 합니다.