# AI 搜尋引擎引用權重因子比較（ChatGPT vs Claude vs Perplexity vs Google AI Overview）

> 由 CiphLens 團隊整理 · 來源：GitHub Copilot 研究 · 繁體中文

---

● Web Search (MCP: github-mcp-server) · Perplexity AI crawler user agent PerplexityBot robots.txt s…
  └ {"type":"output_text","text":{"value":"Here’s a summary of what is known...

● Web Search (MCP: github-mcp-server) · ChatGPT SearchGPT OAI-SearchBot user agent robots.txt llms.…
  └ {"type":"output_text","text":{"value":"Here’s a breakdown on **search en...

● Web Search (MCP: github-mcp-server) · Google AI Overviews Googlebot crawler ranking signals citat…
  └ {"type":"output_text","text":{"value":"Here’s a 2025-focused breakdown o...

● Web Search (MCP: github-mcp-server) · AI search engines Chinese Traditional Simplified Chinese ci…
  └ {"type":"output_text","text":{"value":"Recent research from 2024-2025 ha...

● Web Search (MCP: github-mcp-server) · Microsoft Copilot Bing BingBot AI search citation ranking s…
  └ {"type":"output_text","text":{"value":"Sure! Here’s an overview of how *...

● Web Search (MCP: github-mcp-server) · llms.txt specification standard Jeremy Howard github 2024 ·…
  └ {"type":"output_text","text":{"value":"The **llms.txt** specification is...

● Web Search (MCP: github-mcp-server) · Perplexity AI citation ranking factors PageRank freshness a…
  └ {"type":"output_text","text":{"value":"In 2025, Perplexity AI’s citation...

以下是完整文件：

---

# AI 搜尋引擎內容引用邏輯深度比較：Perplexity、ChatGPT Search、Google AI Overviews、Microsoft Copilot

> **前言**：生成式 AI 搜尋引擎（Generative Engine，GE）正在重塑資訊觸及的方式。傳統 SEO 的目標是讓頁面排在第一頁；GEO（Generative Engine Optimization）的目標則是讓你的內容被 AI 直接引用為答案來源。本文深度比較四大引擎的爬取機制、協定支援、引用排名邏輯、中文偏好，以及對應的最佳化策略。

---

## 一、Perplexity AI

### 1.1 爬蟲 User Agent 與爬取頻率

Perplexity AI 使用名為 **PerplexityBot** 的爬蟲，官方 UA 字串為：

```
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://www.perplexity.ai/bot)
```

官方說明頁面位於 `https://www.perplexity.ai/bot`。PerplexityBot 的爬取頻率明顯低於 Googlebot 與 Bingbot，定位為「禮貌型爬蟲」（polite crawler），不主動對高流量站點進行密集抓取。它支援 `robots.txt` 的 `Crawl-delay` 指令；若站長設定 `Crawl-delay: 10`，Bot 將每次請求間隔至少 10 秒。

值得注意的是，Perplexity 除了預先爬取索引，也具備**即時網路抓取**（real-time web fetch）能力，在使用者查詢時對目標頁面進行動態擷取，因此即便預索引尚未涵蓋某頁面，該頁面仍可能被即時引用。

### 1.2 robots.txt 與 llms.txt 支援

- **robots.txt**：完整支援。可使用 `User-agent: PerplexityBot` 搭配 `Disallow: /` 封鎖全站，或以 `Allow` 精細控制路徑。
- **llms.txt**：Perplexity 是最早公開表示支援 llms.txt 規範的商業 AI 引擎之一。llms.txt 由 Jeremy Howard（Answer.AI / fast.ai 創辦人）於 2024 年 9 月提出，規範儲存庫為 [github.com/AnswerDotAI/llms-txt](https://github.com/AnswerDotAI/llms-txt)。該檔案以 Markdown 格式放置於域名根目錄（`/llms.txt`），作用是讓 AI 系統快速理解網站的核心內容結構與重要頁面，相當於「給 LLM 看的網站目錄」。

### 1.3 影響引用的 Ranking Signals

根據 Search Engine Land 及多個 GEO 研究機構（如 AppearMore、AuthorityStack）對 Perplexity 算法的逆向工程分析，引用排名主要由以下訊號驅動：

| 訊號類別 | 估計影響比重 |
|---|---|
| 語義相關性（Semantic Relevance） | ~30% |
| 引用頻率與域名權威（Citation Frequency & Authority） | ~35% |
| 內容新鮮度（Freshness / Time Decay） | ~15% |
| 結構化可擷取性（Extractability） | ~20% |
| 跨平台提及（Reddit、YouTube、Stack Exchange 等） | 補強訊號 |

Perplexity 的排序管線採用多層機器學習重排（L3 Reranker），先以 BM25 + 嵌入向量進行初步召回，再以語義深度、主題專業度進行精排。同時，Perplexity 內部維護**信任域名白名單**（包含 Wikipedia、GitHub、Amazon、Coursera 等），這些來源在算法層面享有額外加權。

### 1.4 中文引用偏好

Perplexity 的繁體中文支援相對薄弱——其訓練資料及即時抓取偏向英文與簡體中文語料。對於繁中查詢，若答案來源以繁中呈現，引用率明顯低於英文或簡中頁面。此外，Perplexity 的即時搜尋功能對台灣在地域名（`.com.tw`）的抓取覆蓋率不及 `.com` 與 `.cn`，導致繁中網站天然處於不利地位。

### 1.5 優化建議

1. 在 `robots.txt` 明確 `Allow: /` 給 PerplexityBot，避免被誤擋。
2. 部署 `/llms.txt`，以 Markdown 格式列出網站核心文件連結。
3. 採用「答案優先」寫作（inverted pyramid）：在 H2/H3 開頭即給出直接答案，而非鋪陳背景。
4. 定期更新內容（建議每 30 天至少更新一次），並在 HTML `<head>` 顯式標示 `<meta name="last-modified">` 或使用 Schema.org `dateModified`。
5. 積極在 Reddit、GitHub Discussions、Stack Overflow 等 Perplexity 高權重平台上被引用提及。

---

## 二、ChatGPT Search（OpenAI SearchGPT）

### 2.1 爬蟲 User Agent 與爬取頻率

OpenAI 用於 SearchGPT 及模型訓練的爬蟲有兩個主要 UA：

- **OAI-SearchBot**（用於即時搜尋回答）：
  ```
  Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; OAI-SearchBot/1.0; +https://openai.com/oai-searchbot)
  ```
- **GPTBot**（用於訓練資料爬取）：
  ```
  Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.1; +https://openai.com/gptbot)
  ```

兩者在功能上需區分：GPTBot 爬取的資料進入模型訓練，而 OAI-SearchBot 是在使用者查詢時即時擷取網頁內容以輔助回答。爬取頻率方面，GPTBot 的批次爬取強度較高；OAI-SearchBot 則按需觸發，頻率取決於查詢量。

### 2.2 robots.txt 與 llms.txt 支援

- **robots.txt**：完整支援。可分別針對 GPTBot 與 OAI-SearchBot 設定不同策略：
  ```
  User-agent: GPTBot
  Disallow: /           # 阻止訓練資料爬取
  
  User-agent: OAI-SearchBot
  Allow: /              # 允許即時搜尋引用
  ```
  此種分離策略允許站長在拒絕訓練資料使用的同時，仍允許 ChatGPT Search 引用其內容。
- **llms.txt**：OpenAI 官方尚未公開聲明支援 llms.txt 規範，但由於 OAI-SearchBot 在爬取時會解析根目錄文件，部署 llms.txt 有助於引導 Bot 優先索引核心頁面。

### 2.3 影響引用的 Ranking Signals

SearchGPT 的後端整合了 Microsoft Bing 搜尋索引（OpenAI 與 Microsoft 的合作協議），因此其初步候選來源池直接來自 Bing 的有機排名結果。在此基礎上，GPT-4o 等模型進行二次語義篩選：

- **Bing 有機排名**：第一輪過濾，PageRank、反向連結、技術 SEO 健全度皆影響頁面能否進入候選池。
- **語義提取性**（Semantic Extractability）：候選頁面中，能以最少語境噪音直接提供答案的段落優先被引用。
- **E-E-A-T 信號**：作者資格（About 頁面、LinkedIn 連結）、外部引用、域名年齡皆有影響。
- **即時性**：ChatGPT Search 優先引用近期發布或更新的內容，過時資訊被降權。

研究論文《Source Coverage and Citation Bias in LLM-based vs. Traditional Search Engines》（arXiv:2512.09483，2025）指出，LLM 搜尋引擎的引用域名多樣性顯著高於傳統搜尋（LLM 系統引用的域名中有 37% 為傳統搜尋引擎未引用的新域名），但在可信度與政治中立性方面並未優於傳統搜尋。

### 2.4 中文引用偏好

因底層依賴 Bing 索引，ChatGPT Search 對中文的覆蓋程度受 Bing 對中文網頁的索引深度影響。由於 Bing 在台灣市場的爬取資源分配相對有限，繁體中文頁面的覆蓋率低於 Google。在 FAccT '25 收錄論文《Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese》（GitHub: [brucelyu17/SC-TC-Bench](https://github.com/brucelyu17/SC-TC-Bench)）中，研究者對 11 個 LLM 進行測試，發現多數模型在地區術語選擇任務中偏向簡體中文用法，反映訓練語料中簡中比例的結構性優勢。

### 2.5 優化建議

1. 對 GPTBot 與 OAI-SearchBot 採取分離策略——允許後者爬取以提升引用機會。
2. 同步優化 Bing Webmaster Tools 提交率（因 SearchGPT 依賴 Bing 索引）。
3. 建立清晰的作者資訊頁面（Author Schema），強化 E-E-A-T 信號。
4. 為頁面加上 `datePublished` 與 `dateModified` 的 Schema 標記，協助機器讀取新鮮度。
5. 在繁中內容中增加英文摘要（`<meta name="description">` 或 `og:description`），擴大被非繁中查詢覆蓋的概率。

---

## 三、Google AI Overviews（Gemini 驅動）

### 3.1 爬蟲 User Agent 與爬取頻率

Google AI Overviews 的底層仍使用標準 **Googlebot** 爬蟲家族，主要 UA 為：

```
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
```

Google 也引入了 **Google-Extended** UA 作為選擇退出 AI 訓練的控制機制：

```
User-agent: Google-Extended
Disallow: /
```

設定此指令可阻止 Google 將網站內容用於訓練 Bard/Gemini 等生成模型，但**不影響**傳統搜尋排名與 AI Overviews 的即時引用（即時引用仍由 Googlebot 驅動）。

Googlebot 是世界上最積極的爬蟲之一，對高 PageRank 站點的抓取頻率可達每日數百次；對低權威域名則可能數週才抓取一次。

### 3.2 robots.txt 與 llms.txt 支援

- **robots.txt**：完整支援，且是業界標準的制定者。Google 已公開說明如何使用 `Google-Extended` 控制 AI 訓練資料使用。
- **llms.txt**：Google 截至 2025 年尚未正式聲明支援 llms.txt，官方建議以 **sitemap.xml** 搭配 **結構化資料（Schema.org）** 引導機器理解頁面結構，路線與 llms.txt 有所不同。

### 3.3 影響引用的 Ranking Signals

Google AI Overviews 的引用邏輯建立在現有有機搜尋排名的基礎上，約 76% 的被引用 URL 來自傳統搜尋前 10 名，但有機排名並非充分條件。根據 Google 官方說明與多個 GEO 研究機構分析：

**第一層：檢索候選池（Retrieval）**
- 傳統 PageRank、反向連結品質、技術 SEO 健全度決定頁面能否進入候選。

**第二層：語義排名（Semantic Re-ranking by Gemini）**
- 頁面是否在問題所在語境中提供**完整、直接、可提取**的答案。
- 頁面結構是否採用清晰的 H2/H3 標題、列表、表格等，方便 Gemini 直接擷取。

**第三層：E-E-A-T 過濾**
- **Experience**：第一手經驗、實際操作紀錄。
- **Expertise**：具名作者、學術/職業背景可驗證。
- **Authoritativeness**：外部權威站點的提及與引用。
- **Trustworthiness**：透明的來源標注、定期更新、HTTPS。

**第四層：Query Fan-Out**
- 針對複雜查詢，Google 將其拆解為多個子問題（Fan-Out），並從不同來源抽取答案片段進行融合（Data Fusion）。涵蓋主題與相關子主題的**寬廣內容**顯著提升引用機率。

### 3.4 中文引用偏好

Google 在繁體中文市場（台灣、香港）有相對完整的本地化索引，對繁中頁面的覆蓋率四大引擎中最佳。AI Overviews 的引用會根據使用者查詢的語言環境自動匹配，以繁中查詢為主的情境下，繁中頁面有機會被優先引用。然而，若查詢主題的高權威來源主要以英文呈現（如技術文件、學術論文），AI Overviews 仍傾向引用英文來源，並由 Gemini 自行翻譯摘要。

### 3.5 優化建議

1. 確保站點通過 Google Search Console 無錯誤爬取，修正所有 4xx/5xx 錯誤。
2. 實作 FAQ Schema、HowTo Schema、Article Schema，提升 Gemini 提取結構化答案的成功率。
3. 採用「倒金字塔」寫作結構：在段落開頭直接給出結論，後續提供支撐論據。
4. 建立 Entity Authority：在外部高權威站點（媒體報導、學術引用、產業報告）留下可追溯的品牌/作者提及。
5. 啟用 `speakable` Schema 標記（適用於語音與摘要場景）。

---

## 四、Microsoft Copilot（Bing 驅動）

### 4.1 爬蟲 User Agent 與爬取頻率

Microsoft Copilot 的爬取基礎為 **Bingbot**：

```
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
```

此外，Microsoft 也部署了用於 AI 訓練的 **BingPreview** 及 **AdIdxBot** 等變種 UA。Bingbot 的爬取積極度低於 Googlebot，但高於 PerplexityBot，對主流 `.com` 站點的抓取週期約為每 3–7 天一輪。

Bing Webmaster Tools 允許站長在後台直接調整 Bingbot 的爬取頻率，這是 Bing 相較 Google 更透明的爬取控制機制。

### 4.2 robots.txt 與 llms.txt 支援

- **robots.txt**：完整支援，可針對 `Bingbot` 單獨設定。Microsoft 官方文件說明可透過 `X-Robots-Tag` 回應標頭進行更精細的控制。
- **llms.txt**：截至 2025 年，Microsoft 尚未公開聲明採納 llms.txt 標準，官方建議使用 **Open Graph 標籤**、**Schema.org** 及 **XML Sitemap** 來優化機器可讀性。Bing 的爬蟲在解析 Markdown 文件方面的處理能力相對有限，建議以結構化 HTML 為主要最佳化對象。

### 4.3 影響引用的 Ranking Signals

Copilot 的引用邏輯分為兩個管線：

**管線一：Bing 有機搜尋排名（初篩）**
- PageRank 類訊號（反向連結數量與品質）
- 關鍵字相關性、點閱率（CTR）、停留時間
- 技術 SEO：Core Web Vitals、行動裝置友善性、HTTPS

**管線二：Copilot AI 二次篩選**
- **語義一致性**（Semantic Consistency）：內容是否在多個可信來源間保持一致，有助於 Copilot 進行跨來源驗證。
- **發布者聲譽**（Publisher Reputation）：新聞組織、大學、政府網站享有較高引用優先級。
- **RoBERTa/BERT 嵌入相似度**：使用深度神經網路評估來源文本與查詢的語義近似程度。
- **即時性**：最近更新的內容在 Copilot 的回答中獲得明顯加權。
- **AI 生成內容偵測**：疑似 AI 批量生成的低品質內容被系統性降權，優先引用具原創報導或研究的來源。

### 4.4 中文引用偏好

Bing 在中國大陸的可及性受限，因此其繁體中文（台灣、香港）索引相對更完整。Copilot 在處理繁中查詢時，引用台灣本地媒體（如聯合報、中時等）與政府機關網站的比例高於其他 AI 引擎。

然而，由於 Bing 全球市佔率遠低於 Google，其對繁中站點的爬取深度整體仍不及 Google。在簡繁中文的引用偏好研究上，來自 Springer/BMC 的論文《Language and cultural bias in AI》（2024）指出，以西方公司主導訓練的模型在中醫藥、台灣在地文化等特定領域的理解能力顯著弱於以中文為主訓練的模型，這在 Copilot 的回答品質中也有所體現。

### 4.5 優化建議

1. 在 Bing Webmaster Tools 提交 Sitemap，並監控爬取錯誤與索引覆蓋率。
2. 利用 Bing Webmaster Tools 的「URL 提交」功能（每日最多 10,000 個 URL），加速新頁面索引。
3. 確保內容在多個可信外部來源被引用（Copilot 透過跨來源一致性驗證可信度）。
4. 避免大量使用 AI 生成的範本文字；以原創觀點、數據報告、專家訪談等差異化內容提升引用機率。
5. 採用 Schema.org 的 `NewsArticle`、`TechArticle` 或 `MedicalWebPage` 等特定類型標記，提升 Copilot 對內容類別的分類信心。

---

## 五、繁中 vs. 簡中引用偏好的結構性差異

### 5.1 訓練資料不對稱

四大引擎的底層 LLM 皆存在訓練資料的簡繁不對稱問題。根據 FAccT '25 論文（[arxiv.org/abs/2505.22645](https://arxiv.org/abs/2505.22645)，GitHub: [SC-TC-Bench](https://github.com/brucelyu17/SC-TC-Bench)），研究者在地區術語選擇測試中發現，11 個受測 LLM 中有多數傾向輸出簡體中文用語，反映出繁體中文語料在訓練集中的比例劣勢。

### 5.2 語境依賴性偏誤

有趣的是，同一研究發現在「從名字判斷是否錄用」的任務中，LLM 反而偏向選擇繁體中文姓名——這揭示了一個**語境依賴性偏誤**（context-dependent bias）：LLM 的中文偏好並非單一方向，而是隨任務類型與語境不同而變化，不應以單一框架概括。

### 5.3 實務影響

對繁中網站站長而言，上述偏誤意味著：
- **技術類、學術類**內容若僅以繁中呈現，被引用的機率低於同時附有英文版本。
- **台灣在地文化、繁中獨特術語**（如「軟體」vs「软件」、「資料」vs「数据」）在 AI 引擎中可能被簡中對應詞取代，造成語境失真。
- 建議對核心頁面提供**繁中 + 英文雙語版本**，或在 `hreflang` 標籤中明確標注 `zh-TW`，協助引擎準確識別目標受眾。

---

## 六、跨引擎通用最佳化策略

### 6.1 llms.txt 部署

根據 [github.com/AnswerDotAI/llms-txt](https://github.com/AnswerDotAI/llms-txt) 規範，一份標準 `llms.txt` 結構如下：

```markdown
# 你的網站名稱

> 一句話說明網站核心定位與受眾。

## 核心文件
- [文件標題](https://example.com/doc1.md)：簡短說明。
- [API 參考](https://example.com/api.md)：完整 API 列表。

## 選填補充
- [更新日誌](https://example.com/changelog.md)
- [社群討論](https://forum.example.com)
```

Perplexity 已公開表示採用此標準；Anthropic 的 Claude.ai 亦有支援記錄。目前支援 llms.txt 的平台持續增長，提早部署可降低未來整合成本。

### 6.2 Schema.org 結構化資料優先級

| Schema 類型 | 主要受益引擎 | 使用場景 |
|---|---|---|
| `Article` / `NewsArticle` | Google AI Overviews、Copilot | 新聞、分析文章 |
| `FAQPage` | Google AI Overviews | 問答型內容 |
| `HowTo` | Google AI Overviews、Perplexity | 教學步驟 |
| `TechArticle` | Copilot、ChatGPT Search | 技術文件 |
| `Person` + `Organization` | 全部四大引擎 | E-E-A-T 建立 |

### 6.3 內容架構原則

1. **答案前置（Answer-First）**：在 H2 後的第一段即給出直接答案，而非背景鋪墊。
2. **可提取片段（Citation-Ready Snippets）**：將關鍵事實以 50–100 字的獨立段落呈現，方便 AI 擷取為引用片段。
3. **頻繁更新**：設定更新週期，並在 Schema 中標注 `dateModified`；Perplexity 與 ChatGPT Search 的時間衰退函數在發布後 2–3 天即開始生效。
4. **跨平台存在感**：在 GitHub、Reddit、Medium、YouTube 等各引擎高權重平台建立交叉引用，形成「引用生態系」。

---

## 七、總結比較表

| 面向 | Perplexity AI | ChatGPT Search | Google AI Overviews | Microsoft Copilot |
|---|---|---|---|---|
| **爬蟲 UA** | PerplexityBot | OAI-SearchBot / GPTBot | Googlebot + Google-Extended | Bingbot |
| **爬取積極度** | 低（即時補爬） | 中（依賴 Bing 索引） | 極高 | 中 |
| **robots.txt 支援** | ✅ 完整 | ✅ 完整 | ✅ 完整 | ✅ 完整 |
| **llms.txt 支援** | ✅ 公開聲明 | ⚠️ 未正式聲明 | ❌ 不採用 | ❌ 不採用 |
| **核心引用訊號** | 新鮮度、語義、跨平台提及 | Bing 排名 + E-E-A-T | PageRank + E-E-A-T + Fan-Out | Bing 排名 + 跨來源一致性 |
| **繁中覆蓋** | 較弱 | 弱 | 最強 | 中等 |
| **簡中偏誤** | 存在（訓練資料） | 存在（訓練資料） | 相對均衡 | 存在 |
| **首要優化重點** | 即時性 + llms.txt | Bing SEO + 作者標記 | E-E-A-T + Schema | Bing Webmaster + 原創性 |

---

## 參考來源

- Jeremy Howard, *"/llms.txt — a proposal to provide information to help LLMs use websites"*, Answer.AI, 2024-09-03. GitHub: [AnswerDotAI/llms-txt](https://github.com/AnswerDotAI/llms-txt)
- Bruce Lyu et al., *"Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese"*, FAccT '25, arXiv:2505.22645. GitHub: [brucelyu17/SC-TC-Bench](https://github.com/brucelyu17/SC-TC-Bench)
- Anonymous et al., *"Source Coverage and Citation Bias in LLM-based vs. Traditional Search Engines"*, arXiv:2512.09483, 2025.
- Springer/BMC, *"Language and cultural bias in AI: comparing the performance of LLMs in Chinese and English"*, 2024.
- Google Search Central, *"Google AI Overviews: E-E-A-T and Citation Selection"*, 2025.
- OpenAI, *"OAI-SearchBot & GPTBot Documentation"*, openai.com/gptbot, 2024–2025.

