GEO（Generative Engine Optimization）學術源頭與商業應用

由 CiphLens 團隊整理 · 來源：GitHub Copilot 研究 · 繁體中文

● Fetching web content https://arxiv.org/abs/2311.09735 · url: "https://arxiv.org/abs/2311.09735", … └ Contents of https://arxiv.org/abs/2311.09735:

● Fetching web content https://arxiv.org/pdf/2311.09735 · url: "https://arxiv.org/pdf/2311.09735", … └ Output too large to read at once (27.4 KB). Saved to: /var/folders/jz/_w...

● Fetching web content https://arxiv.org/html/2311.09735v3 · url: "https://arxiv.org/html/2311.0973… └ Output too large to read at once (20.2 KB). Saved to: /var/folders/jz/_w...

● Web Search (MCP: github-mcp-server) · GEO Generative Engine Optimization Aggarwal Princeton GEO s… └ {"type":"output_text","text":{"value":"Here is an authoritative summary ...

● Read GEO paper HTML content (shell) │ cat /var/folders/jz/_w5b3sld5gs6kpp3b0bbm4lc0000gn/T/1777478766918-copilot-t │ ool-output-4m1inn.txt | head -c 20000 └ 62 lines...

● Web Search (MCP: github-mcp-server) · GEO Generative Engine Optimization KDD 2024 nine methods au… └ {"type":"output_text","text":{"value":"Here is a summary and analysis of...

● Read rest of GEO paper HTML content (shell) │ cat /var/folders/jz/_w5b3sld5gs6kpp3b0bbm4lc0000gn/T/1777478766918-copilot-t │ ool-output-4m1inn.txt | tail -c 15000 └ 49 lines...

● Web Search (MCP: github-mcp-server) · GEO paper impression score formula word count position bias… └ {"type":"output_text","text":{"value":"You are looking for the **impress...

● Fetching web content https://arxiv.org/html/2311.09735v3 · max_length: 15000, url: "https://arxiv… └ Contents of https://arxiv.org/html/2311.09735v3:

Now I have all the material needed. Let me write the comprehensive Traditional Chinese document.

GEO：生成式引擎優化深度解析

Princeton 大學 Aggarwal et al. 研究報告與台灣中小企業應用指南

論文來源：Aggarwal, P., Murahari, V., Rajpurohit, T., Kalyan, A., Narasimhan, K., & Deshpande, A. (2024). GEO: Generative Engine Optimization. Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '24), Barcelona, Spain. arXiv:2311.09735

開源資源：https://generative-engines.com/GEO/

一、研究背景與問題意識

1.1 生成式引擎的崛起

過去三十年，傳統搜尋引擎（Google、Bing）主宰了資訊查找的方式——使用者輸入關鍵字，引擎回傳一份排名清單，使用者再逐一點擊網站閱讀。然而，自 2022 年末大型語言模型（LLMs）商業化以來，一種全新的資訊消費範式正在取代舊有模式：生成式引擎（Generative Engines，GE）。

生成式引擎的代表包括：

Perplexity.ai：目前成長最快的 AI 搜尋引擎，每月活躍用戶已突破一億
Microsoft Copilot（BingChat）：整合 GPT-4 的 Bing 搜尋體驗
Google AI Overviews（前身 SGE）：Google 搜尋結果頁的 AI 摘要區塊
ChatGPT（搜尋模式）：OpenAI 推出的即時搜尋整合功能

這些系統的運作邏輯與傳統搜尋根本不同。形式化地說，一個生成式引擎可定義為函數：

$$f{GE} := (qu, P_U) \rightarrow r$$

其中 $qu$ 為使用者查詢，$PU$ 為個人化資訊，$r$ 為最終生成的自然語言回應。系統內部包含兩大核心元件：一組生成模型 $G = \{G1, G2 \ldots Gn\}$（分別負責查詢重構、摘要生成、最終回應）以及搜尋引擎 $SE$，後者負責檢索相關文件集 $S = \{s1, s2 \ldots sm\}$。

生成式引擎不再給使用者一份網站清單，而是直接合成答案，並在回應中嵌入行內引用（inline citations）。

1.2 創作者經濟的危機

這個典範轉移帶來了嚴重的第三方問題。傳統搜尋中，高排名等於大量點擊流量，形成一個完整的 SEO 產業生態。但在生成式搜尋時代，使用者不再需要跳轉至外部網站——AI 已將答案整理好直接呈現。這意味著：

有機流量大幅下降：網站即便被引用，使用者也未必點擊
能見度定義模糊：「排名第一」在生成式回應中幾乎沒有意義
黑箱問題嚴峻：內容創作者完全不知道自己的文章何時、以何種方式被引用，甚至是否被引用

Princeton 研究團隊將這個問題提煉為學術命題，並在 KDD 2024 提出第一個系統性解法——生成式引擎優化（GEO）。

二、GEO Score：能見度量化框架

2.1 為何傳統 SEO 指標不適用

傳統 SEO 的核心指標是平均排名（Average Ranking）——你的網站在某個查詢下出現在第幾名。然而，生成式引擎的輸出是一段富文本，可能：

引用同一個來源多次，分散在回應的不同位置
同一句話被多個來源共同引用（按比例分配詞數）
出現在開頭的引用天然比出現在結尾的更受注意

因此，GEO 論文提出一套全新的 Impression（印象/能見度）量化框架，定義一個網站 $ci$ 在生成回應 $r$ 中的能見度為函數 $Imp(ci, r)$。

2.2 客觀量化指標

指標一：詞數比例（Word Count）

最基礎的指標：看回應中有多大比例的句子在引用我的網站。

$$Imp{wc}(ci, r) = \frac{\sum{s \in S{ci}} |s|}{\sum{s \in S_r} |s|}$$

其中 $S{ci}$ 是引用 $ci$ 的句子集合，$Sr$ 是回應中所有句子的集合，$|s|$ 是句子 $s$ 的詞數。若某句同時被多個來源引用，詞數等比分配。

直觀解釋：若整篇 AI 回應有 500 個詞，其中有 200 個詞來自引用我網站的句子，則我的 Word Count 為 40%。

指標二：位置調整詞數（Position-Adjusted Word Count，核心指標）

純粹的詞數比例忽略了一個重要現象：出現在回應前段的引用，使用者更容易閱讀到。論文引用多項點擊率研究（Goodwin, 2011；Dean, 2023）顯示，點擊率隨排名呈冪次衰減，因此引入指數衰減加權：

$$Imp{pwc}(ci, r) = \frac{\sum{s \in S{ci}} |s| \cdot e^{-\frac{pos(s)}{|S|}}}{\sum{s \in S_r} |s|}$$

其中 $pos(s)$ 是句子 $s$ 在回應中的位置序號，$|S|$ 是回應的總句子數。

直觀解釋：在回應第 1 句被引用，遠比在第 20 句被引用的加權分數更高。這是論文的核心量化指標，實驗結果顯示最佳 GEO 方法可在此指標上比基準提升 41%。

2.3 主觀量化指標（Subjective Impression）

客觀指標無法捕捉使用者的實際感受，因此論文採用 G-Eval（Liu et al., 2023a）框架，以 LLM 作為評估者，量化以下七個主觀子指標：

相關性（Relevance）：引用內容與查詢的關聯程度
影響力（Influence）：引用對最終回應的貢獻程度
獨特性（Uniqueness）：引用內容的獨特資訊量
主觀位置（Subjective Position）：引用在回應中的顯著程度
主觀次數（Subjective Count）：引用出現的感知頻率
點擊概率（Click Probability）：使用者點擊查看原始來源的可能性
多樣性（Diversity）：引用涵蓋的資訊面向廣度

論文結果：最佳 GEO 方法在 Subjective Impression 上比基準提升 28%。

三、九種 GEO 能見度操弄手法深度解析

GEO 論文定義每一種 GEO 方法為一個轉換函數 $f: W \rightarrow W'_i$，其中 $W$ 是原始網頁內容，$W'$ 是優化後的版本。以下九種方法由 LLM 針對指定目標自動套用：

3.1 Authoritative（權威化）

核心操作：調整文章的文字風格，使其更具說服力與權威感。

具體做法包括：使用第三人稱專業語氣、避免第一人稱猜測語句（「我認為...」→「研究指出...」）、加入結論性斷言語句。

效果：生成式引擎在評估來源可信度時，傾向引用語氣確定、措辭權威的內容。此方法單獨使用效果中等，但與其他方法組合後效果顯著。

台灣應用範例：一篇關於「台灣電商退貨法規」的文章，將「我們覺得消費者應該有七天...」改為「依消費者保護法第19條，消費者享有七日以上猶豫期...」

3.2 Statistics Addition（統計數據加入）

核心操作：將定性描述替換為具體、可量化的數據。

效果：這是論文中效果最顯著的方法之一，統計數據讓 AI 在摘要時有具體數字可引用，同時提高內容的可信度與被引用概率。

操作範例：

改前：「台灣中小企業數量眾多，是台灣經濟的重要支柱」
改後：「台灣中小企業約 159 萬家，佔全體企業 97.6%，僱用 79.2% 的就業人口（中小企業白皮書，2023）」

3.3 Cite Sources（引用來源）

核心操作：在文章中加入明確的外部引用，包括學術論文、政府文件、業界報告的參考書目。

效果：這是論文中可見度提升最大的方法，在某些查詢類型下提升幅度可達 115%。原因在於生成式引擎本身強調可溯源性（attribution），傾向引用那些自身也有良好引用習慣的來源。

實作建議：不需要嵌入完整的 APA 格式，簡單在文末加上「資料來源：XX 報告（XXXX年）」即有效果。

3.4 Quotation Addition（直接引言加入）

核心操作：加入業界專家、學術研究者或官方文件的直接引用語句，以引號標明。

效果：論文數據顯示提升幅度約 30–40%。引言提供了一個「現成的引用句」，讓 AI 可以直接取用，而不必重新摘要。

操作範例：

「根據 Google 2024 年搜尋狀態報告，『超過 60% 的搜尋查詢
以零點擊（zero-click）結束，生成式摘要是主要原因』。」

3.5 Easy-to-Understand / Simple Language（簡化語言）

核心操作：降低文章的閱讀難度，移除冗長的學術語句，改用簡潔明瞭的表達。

效果：此方法原理在於 LLM 的訓練資料偏好清晰易讀的文本，而過於學術化或口語化的內容在摘要時都可能被跳過。此方法效果屬中等，但對特定領域（如健康類查詢）效果顯著。

3.6 Fluency Optimization（流暢度優化）

核心操作：修正文法錯誤、調整句子結構、確保段落邏輯連貫，使文章讀起來流暢自然。

效果：流暢度直接影響 LLM 的摘要品質。一篇結構混亂、充滿錯別字的文章，即便內容有價值，也可能在 AI 摘要時被低估。此方法與「簡化語言」是互補的——前者處理複雜度，後者處理正確性。

3.7 Technical Terms（技術術語加入）

核心操作：在適當位置加入領域專有名詞與技術術語。

效果：效果因領域差異顯著——在科技、醫療、法律等專業領域，技術術語的加入可大幅提升專業信號，有助被引用；但在生活類、飲食類查詢中效果有限甚至反效果。

注意事項：術語要與內容實質相符，堆砌無關術語可能被 LLM 識別為低品質內容。

3.8 Unique Words（獨特詞彙加入）

核心操作：在文章中加入不常見但精確的詞彙，增加內容的語言獨特性。

效果：對抗 AI 回應的同質化問題。當多個來源使用相似的詞彙，AI 在摘要時可能將它們合併；擁有獨特詞彙的來源更容易被獨立引用，保有被明確提及的機會。

3.9 Keyword Stuffing（關鍵字填充，傳統 SEO 手法）

核心操作：在內容中重複塞入查詢相關的關鍵字（傳統 SEO 的常見手法）。

效果：這是九種方法中表現最差的，論文實驗結果顯示此方法幾乎不帶來可見度提升，甚至可能微幅降低評分。這一結果清晰印證了 GEO 的核心洞見：生成式引擎不是關鍵字匹配機器，LLM 的語意理解讓傳統關鍵字堆砌策略完全失效。

四、實驗設計與各 Vendor 差異

4.1 GEO-bench 基準測試集

為系統性評估，Princeton 團隊構建了 GEO-bench，一個包含 10,000 筆查詢的大規模基準，資料來源涵蓋：

| 資料集 | 說明 | |---|---| | MS MARCO | 來自 Bing 搜尋的真實匿名查詢 | | ORCAS-1 | 另一批 Bing 搜尋查詢資料集 | | Natural Questions | Google 搜尋真實查詢（Kwiatkowski et al., 2019）| | AllSouls | 牛津大學 All Souls College 的論文題目，需多來源推理 | | LIMA | 需要推理能力的複雜問題（Zhou et al., 2023）| | Davinci-Debate | 辯論類問題（Liu et al., 2023b）| | Perplexity Discover | Perplexity.ai 的熱門即時查詢 | | ELI5 | Reddit 的「像我五歲一樣解釋」複雜問題 | | GPT-4 合成查詢 | 涵蓋科學、歷史等多領域，包括不同意圖與難度 |

基準集按 8:1:1 分為訓練/驗證/測試集，涵蓋 25 個領域（藝術、健康、遊戲、法律等），包含 80% 資訊型查詢、各 10% 的交易型與導航型查詢。

4.2 主實驗設置（模擬 GE）

主實驗使用兩步驟設計：

以 Google 搜尋取得每個查詢的前 5 個來源網頁
以 GPT-3.5-turbo 生成最終回應（temperature=0.7，取 5 次平均以減少變異）

此架構與 you.com、Perplexity.ai 的設計高度相似。

4.3 主要實驗結果

| GEO 方法 | Position-Adjusted WC 提升 | Subjective Impression 提升 | 備註 | |---|---|---|---| | Keyword Stuffing | 接近 0% | 接近 0% | 傳統 SEO 完全失效 | | Easy-to-Understand | 中等 | 中等 | 適合健康類查詢 | | Fluency | 中等 | 中等 | 基礎優化 | | Authoritative | 中等偏高 | 中等偏高 | 組合效果更佳 | | Unique Words | 中等 | 中等 | 抗同質化 | | Technical Terms | 領域差異大 | 領域差異大 | 專業領域有效 | | Easy-to-Understand | 中等 | 高（健康類）| 可及性查詢效果好 | | Statistics Addition | 高（∼40%+） | 高 | 最強方法之一 | | Quotation Addition | 高（∼40%+） | 高 | 最強方法之一 | | Cite Sources | 最高（可達 115%） | 高 | 單次提升最大 |

關鍵發現：最佳方法在 Position-Adjusted Word Count 指標上超越基準 41%，在 Subjective Impression 上超越基準 28%。

4.4 Perplexity.ai 真實環境驗證（Wild Experiments）

論文特別在 Perplexity.ai 這一商業生成式引擎上驗證 GEO 方法（Section C.1），結果顯示：

整體能見度提升達 37%，與模擬環境結果高度一致
統計數據加入與引用來源在 Perplexity 上效果最為突出
Fluency 優化在 Perplexity 相對更重要（Perplexity 的引用機制對文本流暢度更敏感）
技術術語方法的效果在 Perplexity 上比模擬環境更依賴領域相關性

4.5 領域差異分析

論文強調「領域特異性」是 GEO 最重要的洞見之一。不同查詢領域的最優 GEO 策略組合差異顯著：

| 領域類型 | 最有效方法 | 最無效方法 | |---|---|---| | 科學 / 學術 | Technical Terms + Cite Sources | Keyword Stuffing | | 法律 / 政策 | Cite Sources + Quotation | Unique Words | | 健康 / 醫療 | Easy-to-Understand + Statistics | Technical Terms（過於晦澀）| | 烹飪 / 生活 | Fluency + Authoritative | Technical Terms | | 商業 / 財經 | Statistics + Cite Sources | Keyword Stuffing |

這說明沒有「萬用公式」——GEO 的實踐需要根據業務領域選擇對應的手法組合。

五、台灣中小企業如何套用 GEO 方法

5.1 台灣數位行銷的 GEO 時代挑戰

台灣中小企業（SMEs）平均數位行銷預算有限，大多依賴 Google 自然搜尋流量。然而 Google AI Overviews 於 2024 年底開始在台灣中文查詢中顯著出現，加上台灣使用者對 Perplexity.ai、ChatGPT 搜尋功能的採用率快速上升，傳統 SEO 的報酬率正在下降。

以下是一個分資源投入級別的 GEO 導入路線圖，專為台灣中小企業設計：

5.2 低成本快速導入（成本：人力 1-2 天）

步驟一：現有內容的統計數據強化

找出網站上的定性敘述段落，逐一加入具體數字。參考資料來源：

經濟部中小企業處：中小企業白皮書（每年出版，免費下載）
財政部統計資料服務網：各業別銷售額、家數統計
主計總處：勞動力調查、GDP 分業統計

改寫示例（以台灣餐飲業者為例）：

改前：「台灣人非常喜愛外食，外送市場持續成長。」

改後：「台灣外食人口比例約 75%，餐飲業年產值突破 5,000 億元
（財政部，2023）。食品外送平台市場規模年增率維持在 15% 以上，
2023 年全年外送訂單突破 3 億筆（行政院消費者保護委員會，2024）。」

步驟二：加入業界引言

在每篇文章的開頭或關鍵論點後，加入一句業界人士的直接引用語，來源可以是：

工業總會、商業總會的調查報告
學術期刊（台大管理論叢、台灣經濟論衡）
政府機關首長的公開聲明

步驟三：Fluency 優化

使用免費工具（如 Claude、ChatGPT）對現有文章進行流暢度校正，提示語可以是：

請幫我檢查以下段落的文法、標點，並在不改變意思的前提下
讓語句更通順流暢。保持繁體中文台灣用語。

5.3 中等投入（成本：建立 SOP，約 1 週）

GEO 內容發布標準作業程序（SOP）

建議台灣中小企業在現有內容管理流程中加入以下 checklist：

| 檢核項目 | 對應 GEO 方法 | 目標值 | |---|---|---| | 每段至少有 1 個具體數字/百分比 | Statistics Addition | 每 300 字至少 2 個統計數據 | | 文末有參考資料清單 | Cite Sources | 至少 3 個可驗證來源 | | 業界引言至少 1 條 | Quotation Addition | 每篇文章 1-2 條 | | 無明顯文法錯誤 | Fluency | Grammarly / LanguageTool 通過 | | 語氣專業確定 | Authoritative | 避免「可能」、「也許」等不確定語句 | | 包含領域核心術語 | Technical Terms | 至少 3 個專業術語有明確定義 |

開源工具推薦：

llm-geo（Aurelio Labs）：開源 GEO 分析工具，可自動分析現有內容並建議優化方向
GEO Optimizer Skill：基於 GEO 論文方法的開源評估框架
LangChain + Jinja2 模板：自行建立 GEO 優化 pipeline，批量處理現有文章

5.4 高投入戰略佈局（長期競爭優勢）

建立「AI 友善內容資產庫」

與其每篇文章單獨優化，台灣中小企業應考慮建立一套結構化的知識庫，這是最符合 GEO 精神的長期策略：

FAQ 頁面深度化：傳統 FAQ 只有問答，GEO 版 FAQ 每個回答都包含統計數據、來源引用和業界引言。AI 在回答使用者查詢時，FAQ 格式天然適合被引用。

定期發布原創調查數據：台灣 B2B 企業可定期對現有客戶做小型調查，將結果發布為研究報告。原創數據是 Cite Sources 和 Statistics 方法最高品質的素材來源，且競爭者難以複製。

建立 Schema Markup：雖然 GEO 論文未直接提及，但結構化資料標記幫助 AI 更精確地解析文章內容，與 Fluency 和 Technical Terms 優化形成互補。相關學術研究（Hogan et al., 2021, Knowledge Graphs）支持這一方向。

案例：台灣連鎖烘焙業應用 GEO

假設台灣某連鎖烘焙品牌希望在使用者詢問「台灣伴手禮推薦」時出現在 AI 回應中，可以這樣優化：

## 優化前（一般文案）：
「我們的鳳梨酥是台灣最受歡迎的伴手禮之一，
使用天然食材製作，口感絕佳。」

## 優化後（套用 GEO 方法）：
「鳳梨酥是台灣出口量最大的烘焙禮品，
每年出口值超過 20 億台幣（農業部食品安全委員會，2023）。
正如台灣食品科技研究所研究員林XX所言，
『真正的鳳梨酥應使用新鮮鳳梨而非果醬，
這是區分品質的首要標準』。
本品牌採用 100% 台灣本土鳳梨（台南、屏東契作農場），
酥皮中奶油含量達 32%，高於業界標準的 25%，
榮獲 2023 年台灣糕餅業競賽金牌。」

後者明確包含：統計數據（20億、32%、25%）、專家引言、可驗證來源、領域術語、權威語氣。

5.5 GEO 的倫理邊界與注意事項

GEO 論文本身也提出了對應的倫理反思。值得台灣業者注意：

Keyword Stuffing 的消亡警示：不誠實的關鍵字堆砌在 SEO 時代已是灰帽手法，在 GEO 時代直接無效，不必浪費資源。

資料真實性為核心：所有統計數據、引用來源必須可以被查核。AI 系統本身有幻覺問題，若引用假數據反而可能因與其他來源矛盾而被降低引用機率。

長期品牌信任 > 短期能見度技巧：GEO 優化的本質是「讓 AI 信任你的內容」，這與讓真實使用者信任你的品牌目標是一致的，不存在根本矛盾。

六、延伸閱讀與學術資源

| 資源 | 說明 | |---|---| | arXiv:2311.09735 | GEO 論文原文（Open Access）| | generative-engines.com/GEO | 官方資源頁，含程式碼與 GEO-bench 資料集 | | Liu et al., 2023a — G-Eval: NLG Evaluation using GPT-4 | GEO 主觀指標所採用的評估框架 | | Ji et al., 2023 — Survey of Hallucination in NLG | LLM 幻覺問題背景研究 | | Brin & Page, 1998 — The PageRank Algorithm | 理解傳統搜尋排名以對照 GEO 差異 | | Zhou et al., 2023 — LIMA: Less Is More for Alignment | GEO-bench 資料來源之一 | | auriti-labs/geo-optimizer-skill | 開源 GEO 評分與優化工具 | | Kwiatkowski et al., 2019 — Natural Questions | GEO-bench 基礎資料集 |

七、結論

Princeton 大學 GEO 論文的核心貢獻可以歸納為三點：首創以量化指標衡量生成式引擎中的內容能見度（Position-Adjusted Word Count + Subjective Impression）、系統性驗證了九種優化手法的有效性（其中統計數據加入、引用來源、引言加入效果最佳，傳統關鍵字填充完全失效）、以及提供了首個大規模評估基準 GEO-bench（10,000 筆查詢，25 個領域）。

對台灣中小企業而言，GEO 不是一套需要大量技術投入的複雜系統，而是一套以高品質內容為核心的數位行銷新思維。加入真實可查核的統計數據、引用可信的外部來源、以清晰流暢的語言呈現專業知識——這些看似基本的內容原則，在生成式引擎主導的資訊查找時代，正是決定你的品牌是否出現在 AI 回應中的關鍵變數。

傳統 SEO 問的是「如何讓搜尋引擎找到我？」；GEO 問的是「如何讓 AI 信任我、引用我？」兩者的答案有本質的不同，而這個不同，正是台灣中小企業在 AI 時代建立數位競爭力的新起點。

本文深度解析論文：Aggarwal, P., Murahari, V., Rajpurohit, T., Kalyan, A., Narasimhan, K., & Deshpande, A. (2024). GEO: Generative Engine Optimization. KDD '24. https://arxiv.org/abs/2311.09735