← 返回資源庫

AI 搜尋引擎引用權重因子比較(ChatGPT vs Claude vs Perplexity vs Google AI Overview)

由 CiphLens 團隊整理 · 來源:GitHub Copilot 研究 · 繁體中文

● Web Search (MCP: github-mcp-server) · Perplexity AI crawler user agent PerplexityBot robots.txt s… └ {"type":"output_text","text":{"value":"Here’s a summary of what is known...

● Web Search (MCP: github-mcp-server) · ChatGPT SearchGPT OAI-SearchBot user agent robots.txt llms.… └ {"type":"output_text","text":{"value":"Here’s a breakdown on **search en...

● Web Search (MCP: github-mcp-server) · Google AI Overviews Googlebot crawler ranking signals citat… └ {"type":"output_text","text":{"value":"Here’s a 2025-focused breakdown o...

● Web Search (MCP: github-mcp-server) · AI search engines Chinese Traditional Simplified Chinese ci… └ {"type":"output_text","text":{"value":"Recent research from 2024-2025 ha...

● Web Search (MCP: github-mcp-server) · Microsoft Copilot Bing BingBot AI search citation ranking s… └ {"type":"output_text","text":{"value":"Sure! Here’s an overview of how *...

● Web Search (MCP: github-mcp-server) · llms.txt specification standard Jeremy Howard github 2024 ·… └ {"type":"output_text","text":{"value":"The llms.txt specification is...

● Web Search (MCP: github-mcp-server) · Perplexity AI citation ranking factors PageRank freshness a… └ {"type":"output_text","text":{"value":"In 2025, Perplexity AI’s citation...

以下是完整文件:


AI 搜尋引擎內容引用邏輯深度比較:Perplexity、ChatGPT Search、Google AI Overviews、Microsoft Copilot

前言:生成式 AI 搜尋引擎(Generative Engine,GE)正在重塑資訊觸及的方式。傳統 SEO 的目標是讓頁面排在第一頁;GEO(Generative Engine Optimization)的目標則是讓你的內容被 AI 直接引用為答案來源。本文深度比較四大引擎的爬取機制、協定支援、引用排名邏輯、中文偏好,以及對應的最佳化策略。

一、Perplexity AI

1.1 爬蟲 User Agent 與爬取頻率

Perplexity AI 使用名為 PerplexityBot 的爬蟲,官方 UA 字串為:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://www.perplexity.ai/bot)

官方說明頁面位於 https://www.perplexity.ai/bot。PerplexityBot 的爬取頻率明顯低於 Googlebot 與 Bingbot,定位為「禮貌型爬蟲」(polite crawler),不主動對高流量站點進行密集抓取。它支援 robots.txtCrawl-delay 指令;若站長設定 Crawl-delay: 10,Bot 將每次請求間隔至少 10 秒。

值得注意的是,Perplexity 除了預先爬取索引,也具備即時網路抓取(real-time web fetch)能力,在使用者查詢時對目標頁面進行動態擷取,因此即便預索引尚未涵蓋某頁面,該頁面仍可能被即時引用。

1.2 robots.txt 與 llms.txt 支援

1.3 影響引用的 Ranking Signals

根據 Search Engine Land 及多個 GEO 研究機構(如 AppearMore、AuthorityStack)對 Perplexity 算法的逆向工程分析,引用排名主要由以下訊號驅動:

| 訊號類別 | 估計影響比重 | |---|---| | 語義相關性(Semantic Relevance) | ~30% | | 引用頻率與域名權威(Citation Frequency & Authority) | ~35% | | 內容新鮮度(Freshness / Time Decay) | ~15% | | 結構化可擷取性(Extractability) | ~20% | | 跨平台提及(Reddit、YouTube、Stack Exchange 等) | 補強訊號 |

Perplexity 的排序管線採用多層機器學習重排(L3 Reranker),先以 BM25 + 嵌入向量進行初步召回,再以語義深度、主題專業度進行精排。同時,Perplexity 內部維護信任域名白名單(包含 Wikipedia、GitHub、Amazon、Coursera 等),這些來源在算法層面享有額外加權。

1.4 中文引用偏好

Perplexity 的繁體中文支援相對薄弱——其訓練資料及即時抓取偏向英文與簡體中文語料。對於繁中查詢,若答案來源以繁中呈現,引用率明顯低於英文或簡中頁面。此外,Perplexity 的即時搜尋功能對台灣在地域名(.com.tw)的抓取覆蓋率不及 .com.cn,導致繁中網站天然處於不利地位。

1.5 優化建議

  1. robots.txt 明確 Allow: / 給 PerplexityBot,避免被誤擋。
  2. 部署 /llms.txt,以 Markdown 格式列出網站核心文件連結。
  3. 採用「答案優先」寫作(inverted pyramid):在 H2/H3 開頭即給出直接答案,而非鋪陳背景。
  4. 定期更新內容(建議每 30 天至少更新一次),並在 HTML <head> 顯式標示 <meta name="last-modified"> 或使用 Schema.org dateModified
  5. 積極在 Reddit、GitHub Discussions、Stack Overflow 等 Perplexity 高權重平台上被引用提及。

二、ChatGPT Search(OpenAI SearchGPT)

2.1 爬蟲 User Agent 與爬取頻率

OpenAI 用於 SearchGPT 及模型訓練的爬蟲有兩個主要 UA:

``` Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; OAI-SearchBot/1.0; +https://openai.com/oai-searchbot) ```

``` Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.1; +https://openai.com/gptbot) ```

兩者在功能上需區分:GPTBot 爬取的資料進入模型訓練,而 OAI-SearchBot 是在使用者查詢時即時擷取網頁內容以輔助回答。爬取頻率方面,GPTBot 的批次爬取強度較高;OAI-SearchBot 則按需觸發,頻率取決於查詢量。

2.2 robots.txt 與 llms.txt 支援

``` User-agent: GPTBot Disallow: / # 阻止訓練資料爬取

User-agent: OAI-SearchBot Allow: / # 允許即時搜尋引用 ``` 此種分離策略允許站長在拒絕訓練資料使用的同時,仍允許 ChatGPT Search 引用其內容。

2.3 影響引用的 Ranking Signals

SearchGPT 的後端整合了 Microsoft Bing 搜尋索引(OpenAI 與 Microsoft 的合作協議),因此其初步候選來源池直接來自 Bing 的有機排名結果。在此基礎上,GPT-4o 等模型進行二次語義篩選:

研究論文《Source Coverage and Citation Bias in LLM-based vs. Traditional Search Engines》(arXiv:2512.09483,2025)指出,LLM 搜尋引擎的引用域名多樣性顯著高於傳統搜尋(LLM 系統引用的域名中有 37% 為傳統搜尋引擎未引用的新域名),但在可信度與政治中立性方面並未優於傳統搜尋。

2.4 中文引用偏好

因底層依賴 Bing 索引,ChatGPT Search 對中文的覆蓋程度受 Bing 對中文網頁的索引深度影響。由於 Bing 在台灣市場的爬取資源分配相對有限,繁體中文頁面的覆蓋率低於 Google。在 FAccT '25 收錄論文《Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese》(GitHub: brucelyu17/SC-TC-Bench)中,研究者對 11 個 LLM 進行測試,發現多數模型在地區術語選擇任務中偏向簡體中文用法,反映訓練語料中簡中比例的結構性優勢。

2.5 優化建議

  1. 對 GPTBot 與 OAI-SearchBot 採取分離策略——允許後者爬取以提升引用機會。
  2. 同步優化 Bing Webmaster Tools 提交率(因 SearchGPT 依賴 Bing 索引)。
  3. 建立清晰的作者資訊頁面(Author Schema),強化 E-E-A-T 信號。
  4. 為頁面加上 datePublisheddateModified 的 Schema 標記,協助機器讀取新鮮度。
  5. 在繁中內容中增加英文摘要(<meta name="description">og:description),擴大被非繁中查詢覆蓋的概率。

三、Google AI Overviews(Gemini 驅動)

3.1 爬蟲 User Agent 與爬取頻率

Google AI Overviews 的底層仍使用標準 Googlebot 爬蟲家族,主要 UA 為:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Google 也引入了 Google-Extended UA 作為選擇退出 AI 訓練的控制機制:

User-agent: Google-Extended
Disallow: /

設定此指令可阻止 Google 將網站內容用於訓練 Bard/Gemini 等生成模型,但不影響傳統搜尋排名與 AI Overviews 的即時引用(即時引用仍由 Googlebot 驅動)。

Googlebot 是世界上最積極的爬蟲之一,對高 PageRank 站點的抓取頻率可達每日數百次;對低權威域名則可能數週才抓取一次。

3.2 robots.txt 與 llms.txt 支援

3.3 影響引用的 Ranking Signals

Google AI Overviews 的引用邏輯建立在現有有機搜尋排名的基礎上,約 76% 的被引用 URL 來自傳統搜尋前 10 名,但有機排名並非充分條件。根據 Google 官方說明與多個 GEO 研究機構分析:

第一層:檢索候選池(Retrieval)

第二層:語義排名(Semantic Re-ranking by Gemini)

第三層:E-E-A-T 過濾

第四層:Query Fan-Out

3.4 中文引用偏好

Google 在繁體中文市場(台灣、香港)有相對完整的本地化索引,對繁中頁面的覆蓋率四大引擎中最佳。AI Overviews 的引用會根據使用者查詢的語言環境自動匹配,以繁中查詢為主的情境下,繁中頁面有機會被優先引用。然而,若查詢主題的高權威來源主要以英文呈現(如技術文件、學術論文),AI Overviews 仍傾向引用英文來源,並由 Gemini 自行翻譯摘要。

3.5 優化建議

  1. 確保站點通過 Google Search Console 無錯誤爬取,修正所有 4xx/5xx 錯誤。
  2. 實作 FAQ Schema、HowTo Schema、Article Schema,提升 Gemini 提取結構化答案的成功率。
  3. 採用「倒金字塔」寫作結構:在段落開頭直接給出結論,後續提供支撐論據。
  4. 建立 Entity Authority:在外部高權威站點(媒體報導、學術引用、產業報告)留下可追溯的品牌/作者提及。
  5. 啟用 speakable Schema 標記(適用於語音與摘要場景)。

四、Microsoft Copilot(Bing 驅動)

4.1 爬蟲 User Agent 與爬取頻率

Microsoft Copilot 的爬取基礎為 Bingbot

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

此外,Microsoft 也部署了用於 AI 訓練的 BingPreviewAdIdxBot 等變種 UA。Bingbot 的爬取積極度低於 Googlebot,但高於 PerplexityBot,對主流 .com 站點的抓取週期約為每 3–7 天一輪。

Bing Webmaster Tools 允許站長在後台直接調整 Bingbot 的爬取頻率,這是 Bing 相較 Google 更透明的爬取控制機制。

4.2 robots.txt 與 llms.txt 支援

4.3 影響引用的 Ranking Signals

Copilot 的引用邏輯分為兩個管線:

管線一:Bing 有機搜尋排名(初篩)

管線二:Copilot AI 二次篩選

4.4 中文引用偏好

Bing 在中國大陸的可及性受限,因此其繁體中文(台灣、香港)索引相對更完整。Copilot 在處理繁中查詢時,引用台灣本地媒體(如聯合報、中時等)與政府機關網站的比例高於其他 AI 引擎。

然而,由於 Bing 全球市佔率遠低於 Google,其對繁中站點的爬取深度整體仍不及 Google。在簡繁中文的引用偏好研究上,來自 Springer/BMC 的論文《Language and cultural bias in AI》(2024)指出,以西方公司主導訓練的模型在中醫藥、台灣在地文化等特定領域的理解能力顯著弱於以中文為主訓練的模型,這在 Copilot 的回答品質中也有所體現。

4.5 優化建議

  1. 在 Bing Webmaster Tools 提交 Sitemap,並監控爬取錯誤與索引覆蓋率。
  2. 利用 Bing Webmaster Tools 的「URL 提交」功能(每日最多 10,000 個 URL),加速新頁面索引。
  3. 確保內容在多個可信外部來源被引用(Copilot 透過跨來源一致性驗證可信度)。
  4. 避免大量使用 AI 生成的範本文字;以原創觀點、數據報告、專家訪談等差異化內容提升引用機率。
  5. 採用 Schema.org 的 NewsArticleTechArticleMedicalWebPage 等特定類型標記,提升 Copilot 對內容類別的分類信心。

五、繁中 vs. 簡中引用偏好的結構性差異

5.1 訓練資料不對稱

四大引擎的底層 LLM 皆存在訓練資料的簡繁不對稱問題。根據 FAccT '25 論文(arxiv.org/abs/2505.22645,GitHub: SC-TC-Bench),研究者在地區術語選擇測試中發現,11 個受測 LLM 中有多數傾向輸出簡體中文用語,反映出繁體中文語料在訓練集中的比例劣勢。

5.2 語境依賴性偏誤

有趣的是,同一研究發現在「從名字判斷是否錄用」的任務中,LLM 反而偏向選擇繁體中文姓名——這揭示了一個語境依賴性偏誤(context-dependent bias):LLM 的中文偏好並非單一方向,而是隨任務類型與語境不同而變化,不應以單一框架概括。

5.3 實務影響

對繁中網站站長而言,上述偏誤意味著:


六、跨引擎通用最佳化策略

6.1 llms.txt 部署

根據 github.com/AnswerDotAI/llms-txt 規範,一份標準 llms.txt 結構如下:

# 你的網站名稱

> 一句話說明網站核心定位與受眾。

## 核心文件
- [文件標題](https://example.com/doc1.md):簡短說明。
- [API 參考](https://example.com/api.md):完整 API 列表。

## 選填補充
- [更新日誌](https://example.com/changelog.md)
- [社群討論](https://forum.example.com)

Perplexity 已公開表示採用此標準;Anthropic 的 Claude.ai 亦有支援記錄。目前支援 llms.txt 的平台持續增長,提早部署可降低未來整合成本。

6.2 Schema.org 結構化資料優先級

| Schema 類型 | 主要受益引擎 | 使用場景 | |---|---|---| | Article / NewsArticle | Google AI Overviews、Copilot | 新聞、分析文章 | | FAQPage | Google AI Overviews | 問答型內容 | | HowTo | Google AI Overviews、Perplexity | 教學步驟 | | TechArticle | Copilot、ChatGPT Search | 技術文件 | | Person + Organization | 全部四大引擎 | E-E-A-T 建立 |

6.3 內容架構原則

  1. 答案前置(Answer-First):在 H2 後的第一段即給出直接答案,而非背景鋪墊。
  2. 可提取片段(Citation-Ready Snippets):將關鍵事實以 50–100 字的獨立段落呈現,方便 AI 擷取為引用片段。
  3. 頻繁更新:設定更新週期,並在 Schema 中標注 dateModified;Perplexity 與 ChatGPT Search 的時間衰退函數在發布後 2–3 天即開始生效。
  4. 跨平台存在感:在 GitHub、Reddit、Medium、YouTube 等各引擎高權重平台建立交叉引用,形成「引用生態系」。

七、總結比較表

| 面向 | Perplexity AI | ChatGPT Search | Google AI Overviews | Microsoft Copilot | |---|---|---|---|---| | 爬蟲 UA | PerplexityBot | OAI-SearchBot / GPTBot | Googlebot + Google-Extended | Bingbot | | 爬取積極度 | 低(即時補爬) | 中(依賴 Bing 索引) | 極高 | 中 | | robots.txt 支援 | ✅ 完整 | ✅ 完整 | ✅ 完整 | ✅ 完整 | | llms.txt 支援 | ✅ 公開聲明 | ⚠️ 未正式聲明 | ❌ 不採用 | ❌ 不採用 | | 核心引用訊號 | 新鮮度、語義、跨平台提及 | Bing 排名 + E-E-A-T | PageRank + E-E-A-T + Fan-Out | Bing 排名 + 跨來源一致性 | | 繁中覆蓋 | 較弱 | 弱 | 最強 | 中等 | | 簡中偏誤 | 存在(訓練資料) | 存在(訓練資料) | 相對均衡 | 存在 | | 首要優化重點 | 即時性 + llms.txt | Bing SEO + 作者標記 | E-E-A-T + Schema | Bing Webmaster + 原創性 |


參考來源