AI 크롤러 robots.txt 설정 가이드: GPTBot·ClaudeBot 차단/허용 전략

Q: robots.txt만 쓰면 AI 학습을 완전히 막을 수 있나?

아니다. robots.txt는 선의의 크롤러에게 제공하는 공개 규칙이며 강제 보안 장치가 아니다. 서버 로그, WAF, 보안 계층, 법적·라이선스 정책을 함께 봐야 한다.

Q: AI 검색 노출을 원하면 무엇을 허용해야 하나?

일반 검색 노출을 위해 Googlebot은 보통 허용한다. AI 검색과 연결되는 봇은 각 서비스 공식 문서에서 user-agent 이름과 목적을 확인한 뒤 허용 여부를 정해야 한다.

AI 크롤러 robots.txt 설정은 “전부 허용” 또는 “전부 차단” 문제가 아니다. GPTBot처럼 학습 목적이 명확한 봇, OAI-SearchBot처럼 검색 노출과 연결되는 봇, 사용자 요청으로 페이지를 방문하는 봇은 목적이 다르다. 따라서 사이트 운영자는 AI 검색 노출, 콘텐츠 학습 제한, 서버 부하, 저작권 정책을 분리해서 결정해야 한다. 기준일은 2026-07-01이다.

AI 크롤러 robots.txt 설정 전략을 설명하는 서버와 봇, 허용 차단 신호 이미지 — AI 크롤러를 무조건 차단하거나 무조건 허용하기보다, 검색 노출·학습 제한·서버 부하를 나눠 판단해야 한다.

핵심 요약

robots.txt는 크롤러에게 사이트 접근 규칙을 알려주는 표준 파일이다.
OpenAI 문서 기준 GPTBot과 OAI-SearchBot은 목적이 다르며 각각 별도로 허용·차단할 수 있다.
ChatGPT-User처럼 사용자의 요청으로 방문하는 에이전트는 일반 자동 크롤링과 다르게 다뤄야 한다.
Cloudflare는 AI bots 차단 기능에서 GPTBot, ClaudeBot, GoogleOther, CCBot 등 여러 AI 크롤러를 분류해 다룬다.
AI 검색 노출을 원하면 검색·인용 계열 봇은 열어두고, 학습 목적 봇은 별도 정책으로 판단하는 방식이 현실적이다.

AI 크롤러와 일반 검색 크롤러는 무엇이 다른가

일반 검색 크롤러는 웹페이지를 발견하고 색인해 검색 결과에 노출하기 위해 움직인다. 반면 AI 크롤러는 목적이 더 다양하다. 어떤 봇은 검색형 답변에 출처를 제공하기 위해 페이지를 읽고, 어떤 봇은 모델 학습에 사용할 데이터를 수집하며, 어떤 봇은 사용자가 특정 질문을 했을 때만 페이지를 방문한다.

이 차이를 무시하고 모든 AI 봇을 한 줄로 차단하면 AI 검색 노출 기회를 잃을 수 있다. 반대로 모든 AI 봇을 열어두면 사이트 콘텐츠가 원치 않는 방식으로 수집될 수 있다. 그래서 운영 전략은 “AI 봇 전체”가 아니라 “봇의 목적”을 기준으로 나누는 편이 낫다.

GPTBot, OAI-SearchBot, ChatGPT-User는 목적이 다르다

OpenAI 공식 문서는 GPTBot과 OAI-SearchBot을 구분한다. GPTBot은 생성형 AI 기반 모델을 더 유용하고 안전하게 만들기 위한 크롤러로 설명된다. 반면 OAI-SearchBot은 검색 결과와 연결되는 봇으로 소개된다. OpenAI 문서는 웹마스터가 OAI-SearchBot은 허용하고 GPTBot은 차단하는 식의 독립적인 설정이 가능하다고 설명한다.

또 하나 중요한 이름은 ChatGPT-User이다. OpenAI 문서에 따르면 ChatGPT-User는 사용자가 ChatGPT나 Custom GPT에서 질문했을 때 웹페이지를 방문하는 사용자 요청 기반 에이전트다. 자동 웹 크롤링 용도가 아니며, 사용자 요청으로 발생하는 동작이기 때문에 일반적인 robots.txt 규칙 적용과는 다르게 볼 필요가 있다.

크롤러/에이전트	주요 목적	운영 판단
GPTBot	모델 개선·학습 목적 크롤링	학습 이용을 제한하고 싶다면 차단 후보
OAI-SearchBot	검색·답변 노출과 연결되는 크롤링	AI 검색 노출을 원하면 허용 후보
ChatGPT-User	사용자 요청으로 특정 페이지 방문	자동 크롤러와 분리해 판단
Googlebot	Google 검색 색인	일반 SEO를 위해 보통 허용
ClaudeBot 등 AI bots	서비스별 AI 크롤링	공식 문서와 로그를 보고 개별 판단

robots.txt로 할 수 있는 것과 할 수 없는 것

Google robots.txt 사양 문서는 robots.txt 파일을 사이트 최상위 경로에 둬야 한다고 설명한다. 예를 들어 https://example.com/robots.txt처럼 배치해야 한다. 이 파일은 User-agent, Allow, Disallow, Sitemap 같은 지시문으로 크롤러 접근 규칙을 제공한다.

하지만 robots.txt는 강제 보안 장치가 아니다. 선의의 크롤러가 참고하는 공개 규칙에 가깝다. 민감한 파일을 숨기는 용도로 쓰면 안 된다. 차단된 URL도 외부 링크나 다른 신호를 통해 알려질 수 있고, 악성 봇은 robots.txt를 무시할 수 있다.

AI 검색 노출을 원할 때의 허용 전략

AI 검색에서 인용되고 싶다면 검색·답변 노출과 관련된 봇을 무조건 차단하지 않는 편이 좋다. 예를 들어 OpenAI 계열에서는 OAI-SearchBot을 열어두고, 학습 목적의 GPTBot은 별도로 판단하는 방식이 가능하다. Google 검색 노출을 유지하려면 Googlebot도 계속 허용해야 한다.

User-agent: Googlebot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: GPTBot
Disallow: /

Sitemap: https://example.com/sitemap.xml

위 예시는 검색 노출은 유지하되 모델 학습 목적 크롤링은 제한하고 싶은 사이트의 출발점이다. 실제 사이트에 적용하기 전에는 공식 문서의 최신 user-agent 이름과 서버 로그를 확인해야 한다.

AI 학습·수집을 제한하고 싶을 때의 차단 전략

콘텐츠 라이선스가 엄격하거나 유료 콘텐츠가 많거나, AI 학습 이용을 원치 않는다면 AI 크롤러를 더 넓게 차단할 수 있다. Cloudflare 문서는 AI bots 차단 기능에서 GPTBot, ClaudeBot, GoogleOther, CCBot 등 여러 AI 크롤러를 다룬다고 설명한다. Cloudflare 같은 보안 계층을 쓰면 robots.txt보다 더 적극적인 차단 규칙을 만들 수 있다.

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

다만 이 방식은 AI 검색 인용 가능성을 낮출 수 있다. 또한 서비스마다 user-agent 이름과 정책이 바뀔 수 있으므로 정기적으로 점검해야 한다.

llms.txt, sitemap.xml, 구조화 데이터와 같이 써야 하는 이유

robots.txt는 접근 허용·차단의 신호다. 반면 llms.txt는 AI 에이전트에게 사이트의 중요한 문서와 사용 맥락을 안내하는 파일에 가깝다. sitemap.xml은 검색엔진에게 URL 목록을 제공하고, 구조화 데이터는 페이지의 의미를 기계가 더 잘 이해하도록 돕는다.

따라서 AI 검색 시대의 사이트 운영은 하나의 파일로 끝나지 않는다. llms.txt 작성 방법, AI 검색 최적화 GEO 전략, Agentic Resource Discovery 같은 주제를 함께 연결해야 한다.

운영자용 의사결정 체크리스트

질문	허용 쪽 신호	차단 쪽 신호
AI 검색에 인용되고 싶은가	검색·답변 봇 허용	전체 차단은 불리
콘텐츠 라이선스가 엄격한가	일부 공개 페이지만 허용	학습 목적 봇 차단
서버 부하가 큰가	crawl-delay 또는 보안 계층 검토	과도한 봇 차단
유료 콘텐츠가 있는가	무료 샘플만 노출	유료 경로 차단
GEO가 중요한가	OAI-SearchBot, Googlebot 등 신중히 허용	학습 봇만 별도 차단

자주 묻는 질문

GPTBot을 차단하면 ChatGPT에 내 글이 절대 나오지 않나?

그렇게 단순하지 않다. GPTBot은 학습 목적 크롤러로 설명된다. 검색·사용자 요청 기반 방문과는 다른 경로가 있을 수 있으므로 OAI-SearchBot, ChatGPT-User 같은 이름을 분리해 봐야 한다.

robots.txt만 쓰면 AI 학습을 완전히 막을 수 있나?

아니다. robots.txt는 선의의 크롤러에게 제공하는 공개 규칙이다. 강제 보안 장치가 아니므로 서버 로그, WAF, Cloudflare 같은 보안 계층, 법적·라이선스 정책을 함께 봐야 한다.

AI 검색 노출을 원하면 무엇을 허용해야 하나?

일반 검색 노출을 위해 Googlebot은 보통 허용한다. AI 검색과 연결되는 봇은 각 서비스의 공식 문서에서 user-agent 이름과 목적을 확인한 뒤 허용 여부를 정해야 한다. OpenAI의 경우 OAI-SearchBot과 GPTBot을 분리해서 판단할 수 있다.

AI 크롤러 robots.txt 설정 가이드: GPTBot·ClaudeBot·PerplexityBot을 허용할까 차단할까?