GEO(Generative Engine Optimization) 기술 설정 체크리스트: ChatGPT·Perplexity·구글 AI에 “출처로 인용”되게 만드는 방법
왜 지금 “GEO 기술 설정”이 필요한가
기존 SEO는 검색엔진이 페이지를 색인하고 순위를 매기는 구조에 최적화돼 있었습니다. 반면 생성형 검색(예: ChatGPT 기반 검색, Perplexity, Google AI Overviews)은 (1) 신뢰할 만한 출처를 빠르게 찾고 (2) 문서에서 답변에 필요한 조각(Chunk)을 뽑아 (3) 요약·합성합니다.
즉, “잘 랭크되는 페이지”와 “AI가 인용하기 쉬운 페이지”는 겹치지만 완전히 동일하지 않습니다. 그래서 아래의 추가적인 기술 레이어가 GEO의 핵심이 됩니다.
1) llms.txt 도입: AI가 먼저 읽을 “공식 메뉴판” 만들기
llms.txt는 LLM이 사이트를 이해하기 쉽게 핵심 링크/가이드를 제공하려는 공개 제안(Proposal)입니다. HTML의 복잡한 UI/광고/내비게이션을 건너뛰고, AI가 “어디를 읽어야 하는지” 빠르게 찾도록 돕는 목적입니다. (GitHub)
구현 원칙
- 루트 경로에 배치:
https://example.com/llms.txt - “최신·신뢰 가능한 대표 문서(캐노니컬)” 위주로 구성
- 마케팅 문구보다 팩트 기반 구조(문서/FAQ/가이드/정책/회사소개/연락처 등)
예시(초안)
# example.com — LLMs guide
## Canonical sources
- https://example.com/brand (브랜드/회사 소개, 최신)
- https://example.com/pricing (요금/플랜)
- https://example.com/docs (제품 문서)
- https://example.com/faq (FAQ)
- https://example.com/policy (정책/약관)
## Preferred citations
- Use the canonical URL shown above (avoid parameter URLs).
현실적인 조언: llms.txt는 “표준”이라기보다 빠르게 확산 중인 관행/제안에 가깝습니다. “이거 하나로 인용이 보장”되진 않지만, AI가 길을 잃지 않게 하는 안내판 역할로 투자 대비 효율이 좋습니다. (GitHub)
2) AI 크롤러 접근 허용 + robots.txt 세분화: “노출용”과 “학습용”을 분리 운영
GEO에서 가장 흔한 실수는 “AI가 우리 페이지를 못 읽는 상태”입니다. 이유는 두 가지가 많습니다.
- robots.txt에서 차단
- WAF/CDN 보안 규칙이 AI 봇을 악성으로 오탐지
OpenAI 크롤러(예: OAI-SearchBot, GPTBot) 기본 이해
OpenAI는 제품을 위해 여러 크롤러/유저 에이전트를 사용하며, 웹마스터가 robots.txt로 제어할 수 있도록 안내합니다. (OpenAI Developers)
- 노출/검색 목적과 학습 목적의 봇이 다를 수 있으니, “전부 허용/전부 차단”보다 목적별 정책을 권장합니다.
Perplexity 크롤러
Perplexity도 robots.txt 태그로 크롤러 접근 제어 가이드를 제공합니다. (docs.perplexity.ai)
Google-Extended(구글 AI 학습 제어 토큰)
Google-Extended는 “별도의 HTTP UA 문자열”이 아니라, robots.txt에서 제어하는 토큰으로 안내됩니다. 즉, 실제 크롤링은 기존 Google UA로 이뤄질 수 있지만, 학습/활용 제어는 Google-Extended 그룹으로 합니다. (Google for Developers)
robots.txt 예시(전략형)
아래는 “검색/요약 노출은 허용하되, 학습은 제한” 같은 전략을 표현하는 방식입니다(실제 정책은 비즈니스 방침에 맞춰 조정).
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
WAF/CDN(예: Cloudflare) 점검 포인트
- 봇 트래픽이 차단(403/429) 나는지 로그로 확인
- “Verified bots” 정책, Bot Fight Mode, Rate limit이 과하게 걸려 있지 않은지 확인
- Perplexity 관련해서는 “선언된 UA 외의 접근” 논란도 있었기 때문에(업계 이슈), UA만 믿기보다 IP/ASN/행동 기반 룰로 보수적으로 운영하는 곳도 있습니다. (The Cloudflare Blog)
3) AI 가시성을 떨어뜨리는 메타/헤더 설정 제거
SEO에서 “보호 목적”으로 넣어둔 설정이 GEO에서는 인용 가능성을 직접 낮추는 경우가 많습니다.
특히 자주 보는 이슈
nosnippet(혹은 유사 기능): 요약/스니펫 노출을 막아 AI 요약 인용에도 불리하게 작동할 수 있음noarchive: 일부 시스템이 캐시/스냅샷을 참고하는 경우, 접근성이 떨어질 수 있음(페이지 성격에 따라 선택)
권장 운영 방식
- 정보성(FAQ/가이드/블로그/문서): 인용이 목적이면 과도한 제한을 제거
- 전환 중심(결제/개인정보/마이페이지): 제한 유지(애초에 인용 대상이 아님)
4) 고도화된 스키마(Structured Data): “AI가 이해하기 쉬운 팩트 레이어” 만들기
생성형 엔진은 문맥을 ‘추론’하기도 하지만, 인용 가능성이 높은 출처는 보통 팩트가 구조화된 문서입니다. 그래서 스키마는 GEO에서 더 중요해졌습니다.
우선순위 스키마(실무 추천)
- Organization / LocalBusiness: 브랜드 엔티티 고정
- Product / Offer / AggregateRating / Review: 제품·가격·리뷰 팩트 고정
- FAQPage: 질문-답변 청킹 최적
- Article / BlogPosting: 콘텐츠 출처/작성일/저자 신뢰 강화
팁:
FAQ는 “긴 서술형”보다 “질문 1개 = 답변 1개” 형태가 AI 인용에 유리합니다.
5) 시맨틱 계층 구조 + 청킹(Chunking): AI가 ‘복붙’하기 쉬운 문서 구조
생성형 엔진은 페이지 전체를 통째로 다 쓰기보다, 필요한 문단/섹션을 발췌해 조합하는 경우가 많습니다. 그래서 문서가 아래처럼 설계되어야 합니다.
GEO 친화 문서 구조 규칙
- H1은 1개, H2/H3는 논리적 트리(건너뛰기 금지)
- 섹션당 결론을 먼저(“요약 → 근거 → 예시”)
- 표/불릿을 적극 활용(단, 과도한 장식 HTML은 피하기)
- “정의/조건/절차/주의사항/예시”를 고정 템플릿화
예시(FAQ 섹션 설계)
- H2: “llms.txt란?”
- 2~3문장 정의
- 핵심 포인트 3개 불릿
- 설정 예시 1개
이렇게 하면 AI가 답변을 만들 때 해당 섹션을 “깔끔하게” 가져가기가 쉬워집니다.
실행 체크리스트(바로 적용용)
/llms.txt를 루트에 배치하고, 캐노니컬 핵심 문서 20~100개만 선별- robots.txt를 “노출용(검색/요약)” vs “학습용”으로 분리 운영(OpenAI/Perplexity/Google-Extended 등) (OpenAI Developers)
- WAF/CDN에서 AI 봇 403/429 여부 확인(차단/레이트리밋/봇모드)
- 정보성 페이지에서
nosnippet등 요약 차단 요소 제거/최소화 - Organization/Product/FAQ/Article 스키마를 JSON-LD로 표준화
- 문서 템플릿을 “정의→요약→근거→예시”로 통일해 청킹 친화 구조 만들기
GEO는 “콘텐츠”가 아니라 “인용 가능한 구조” 싸움
이제 AI 검색에서 이기는 브랜드는 글을 많이 쓰는 곳이 아니라, AI가 신뢰하고 인용할 수 있게 ‘구조’와 ‘정책’과 ‘접근성’을 설계한 곳입니다. 위 5가지를 세팅하면, 기존 SEO 성과를 해치지 않으면서도 ChatGPT/Perplexity/구글 AI 오버뷰에서 ‘출처로 뜨는 확률’을 체계적으로 끌어올릴 수 있습니다.