I prompted ChatGPT, Claude, Perplexity, and Gemini and watched my Nginx logs

개요

Nginx 로그 분석을 통해 ChatGPT, Claude, Perplexity, Gemini 등 주요 AI 어시스턴트의 실제 웹사이트 접근 방식과 트래픽 유형을 파악합니다.

주요 내용

  • AI 트래픽 구분: AI 트래픽은 AI 어시스턴트 자체의 직접적인 페이지 접근(Provider-side fetch)과 사용자가 AI 답변을 보고 링크를 클릭하여 방문하는 경우(Real clickthrough visit)로 나뉘며, Nginx 로그는 이 두 가지를 명확히 구분할 수 있습니다.
  • 직접 접근하는 AI: ChatGPT(ChatGPT-User), Claude(Claude-User), Perplexity(Perplexity-User), Meta AI(meta-webindexer), Manus(Manus-User)는 각각 고유한 User-agent를 통해 직접 웹사이트에 접근하는 신호를 보냅니다.
  • robots.txt 준수: Claude는 모든 페이지 접근 전에 robots.txt를 먼저 확인하며, 이는 Anthropic의 문서화된 행동과 일치합니다.
  • robots.txt 무시 가능성: Meta AI의 Meta-ExternalFetcher는 문서상 사람이나 에이전트가 특정 링크를 따라갈 경우 robots.txt를 우회할 수 있다고 명시되어 있습니다.
  • 숨겨진 접근: Gemini는 자체 인덱스에서 답변하며, 웹사이트에 직접 접근하는 요청은 Googlebot으로 표시될 수 있어 Gemini만의 트래픽으로 식별하기 어렵습니다.
  • 일반 브라우저로 위장: Microsoft Copilot과 Grok은 고유한 User-agent 없이 일반 브라우저(Chrome, Safari)처럼 보여 로그만으로는 AI 트래픽으로 식별하기 어렵습니다.
  • 측정 가능한 트래픽: Nginx 로그에서 명확히 측정 가능한 AI 트래픽은 제공업체 문서화 또는 관찰된 검색 User-agent(ChatGPT-User, Claude-User, Perplexity-User, Manus-User, Meta-ExternalFetcher, meta-webindexer)를 통한 직접 접근과, AI 어시스턴트 웹사이트를 추천인(referrer)으로 갖는 일반 브라우저 방문입니다.
  • 식별 불가능한 트래픽: 검색 인덱싱 봇(OAI-SearchBot, Claude-SearchBot, PerplexityBot, Googlebot, Bingbot)과 학습 봇(GPTBot, ClaudeBot, CCBot)은 사용자 질문에 응답하는 실시간 검색과는 다르며, 일반적으로 특정 사용자 쿼리에 대한 응답으로 오리진에 히트하지 않습니다.

시사점

AI 트래픽을 정확히 측정하기 위해서는 AI 어시스턴트별 User-agent 패턴을 이해하고, 일부는 일반 트래픽과 구분하기 어렵다는 점을 인지하여 다각적인 분석이 필요합니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions