← 返回資源庫

GEO(Generative Engine Optimization)學術源頭與商業應用

由 CiphLens 團隊整理 · 來源:GitHub Copilot 研究 · 繁體中文

● Fetching web content https://arxiv.org/abs/2311.09735 · url: "https://arxiv.org/abs/2311.09735", … └ Contents of https://arxiv.org/abs/2311.09735:

● Fetching web content https://arxiv.org/pdf/2311.09735 · url: "https://arxiv.org/pdf/2311.09735", … └ Output too large to read at once (27.4 KB). Saved to: /var/folders/jz/_w...

● Fetching web content https://arxiv.org/html/2311.09735v3 · url: "https://arxiv.org/html/2311.0973… └ Output too large to read at once (20.2 KB). Saved to: /var/folders/jz/_w...

● Web Search (MCP: github-mcp-server) · GEO Generative Engine Optimization Aggarwal Princeton GEO s… └ {"type":"output_text","text":{"value":"Here is an authoritative summary ...

● Read GEO paper HTML content (shell) │ cat /var/folders/jz/_w5b3sld5gs6kpp3b0bbm4lc0000gn/T/1777478766918-copilot-t │ ool-output-4m1inn.txt | head -c 20000 └ 62 lines...

● Web Search (MCP: github-mcp-server) · GEO Generative Engine Optimization KDD 2024 nine methods au… └ {"type":"output_text","text":{"value":"Here is a summary and analysis of...

● Read rest of GEO paper HTML content (shell) │ cat /var/folders/jz/_w5b3sld5gs6kpp3b0bbm4lc0000gn/T/1777478766918-copilot-t │ ool-output-4m1inn.txt | tail -c 15000 └ 49 lines...

● Web Search (MCP: github-mcp-server) · GEO paper impression score formula word count position bias… └ {"type":"output_text","text":{"value":"You are looking for the **impress...

● Fetching web content https://arxiv.org/html/2311.09735v3 · max_length: 15000, url: "https://arxiv… └ Contents of https://arxiv.org/html/2311.09735v3:

Now I have all the material needed. Let me write the comprehensive Traditional Chinese document.


GEO:生成式引擎優化深度解析

Princeton 大學 Aggarwal et al. 研究報告與台灣中小企業應用指南

論文來源:Aggarwal, P., Murahari, V., Rajpurohit, T., Kalyan, A., Narasimhan, K., & Deshpande, A. (2024). GEO: Generative Engine Optimization. Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '24), Barcelona, Spain. arXiv:2311.09735

開源資源https://generative-engines.com/GEO/

一、研究背景與問題意識

1.1 生成式引擎的崛起

過去三十年,傳統搜尋引擎(Google、Bing)主宰了資訊查找的方式——使用者輸入關鍵字,引擎回傳一份排名清單,使用者再逐一點擊網站閱讀。然而,自 2022 年末大型語言模型(LLMs)商業化以來,一種全新的資訊消費範式正在取代舊有模式:生成式引擎(Generative Engines,GE)

生成式引擎的代表包括:

這些系統的運作邏輯與傳統搜尋根本不同。形式化地說,一個生成式引擎可定義為函數:

$$f{GE} := (qu, P_U) \rightarrow r$$

其中 $qu$ 為使用者查詢,$PU$ 為個人化資訊,$r$ 為最終生成的自然語言回應。系統內部包含兩大核心元件:一組生成模型 $G = \{G1, G2 \ldots Gn\}$(分別負責查詢重構、摘要生成、最終回應)以及搜尋引擎 $SE$,後者負責檢索相關文件集 $S = \{s1, s2 \ldots sm\}$。

生成式引擎不再給使用者一份網站清單,而是直接合成答案,並在回應中嵌入行內引用(inline citations)。

1.2 創作者經濟的危機

這個典範轉移帶來了嚴重的第三方問題。傳統搜尋中,高排名等於大量點擊流量,形成一個完整的 SEO 產業生態。但在生成式搜尋時代,使用者不再需要跳轉至外部網站——AI 已將答案整理好直接呈現。這意味著:

  1. 有機流量大幅下降:網站即便被引用,使用者也未必點擊
  2. 能見度定義模糊:「排名第一」在生成式回應中幾乎沒有意義
  3. 黑箱問題嚴峻:內容創作者完全不知道自己的文章何時、以何種方式被引用,甚至是否被引用

Princeton 研究團隊將這個問題提煉為學術命題,並在 KDD 2024 提出第一個系統性解法——生成式引擎優化(GEO)


二、GEO Score:能見度量化框架

2.1 為何傳統 SEO 指標不適用

傳統 SEO 的核心指標是平均排名(Average Ranking)——你的網站在某個查詢下出現在第幾名。然而,生成式引擎的輸出是一段富文本,可能:

因此,GEO 論文提出一套全新的 Impression(印象/能見度)量化框架,定義一個網站 $ci$ 在生成回應 $r$ 中的能見度為函數 $Imp(ci, r)$。

2.2 客觀量化指標

指標一:詞數比例(Word Count)

最基礎的指標:看回應中有多大比例的句子在引用我的網站。

$$Imp{wc}(ci, r) = \frac{\sum{s \in S{ci}} |s|}{\sum{s \in S_r} |s|}$$

其中 $S{ci}$ 是引用 $ci$ 的句子集合,$Sr$ 是回應中所有句子的集合,$|s|$ 是句子 $s$ 的詞數。若某句同時被多個來源引用,詞數等比分配。

直觀解釋:若整篇 AI 回應有 500 個詞,其中有 200 個詞來自引用我網站的句子,則我的 Word Count 為 40%。

指標二:位置調整詞數(Position-Adjusted Word Count,核心指標)

純粹的詞數比例忽略了一個重要現象:出現在回應前段的引用,使用者更容易閱讀到。論文引用多項點擊率研究(Goodwin, 2011;Dean, 2023)顯示,點擊率隨排名呈冪次衰減,因此引入指數衰減加權:

$$Imp{pwc}(ci, r) = \frac{\sum{s \in S{ci}} |s| \cdot e^{-\frac{pos(s)}{|S|}}}{\sum{s \in S_r} |s|}$$

其中 $pos(s)$ 是句子 $s$ 在回應中的位置序號,$|S|$ 是回應的總句子數。

直觀解釋:在回應第 1 句被引用,遠比在第 20 句被引用的加權分數更高。這是論文的核心量化指標,實驗結果顯示最佳 GEO 方法可在此指標上比基準提升 41%

2.3 主觀量化指標(Subjective Impression)

客觀指標無法捕捉使用者的實際感受,因此論文採用 G-Eval(Liu et al., 2023a)框架,以 LLM 作為評估者,量化以下七個主觀子指標:

  1. 相關性(Relevance):引用內容與查詢的關聯程度
  2. 影響力(Influence):引用對最終回應的貢獻程度
  3. 獨特性(Uniqueness):引用內容的獨特資訊量
  4. 主觀位置(Subjective Position):引用在回應中的顯著程度
  5. 主觀次數(Subjective Count):引用出現的感知頻率
  6. 點擊概率(Click Probability):使用者點擊查看原始來源的可能性
  7. 多樣性(Diversity):引用涵蓋的資訊面向廣度

論文結果:最佳 GEO 方法在 Subjective Impression 上比基準提升 28%


三、九種 GEO 能見度操弄手法深度解析

GEO 論文定義每一種 GEO 方法為一個轉換函數 $f: W \rightarrow W'_i$,其中 $W$ 是原始網頁內容,$W'$ 是優化後的版本。以下九種方法由 LLM 針對指定目標自動套用:

3.1 Authoritative(權威化)

核心操作:調整文章的文字風格,使其更具說服力與權威感。

具體做法包括:使用第三人稱專業語氣、避免第一人稱猜測語句(「我認為...」→「研究指出...」)、加入結論性斷言語句。

效果:生成式引擎在評估來源可信度時,傾向引用語氣確定、措辭權威的內容。此方法單獨使用效果中等,但與其他方法組合後效果顯著。

台灣應用範例: 一篇關於「台灣電商退貨法規」的文章,將「我們覺得消費者應該有七天...」改為「依消費者保護法第19條,消費者享有七日以上猶豫期...」


3.2 Statistics Addition(統計數據加入)

核心操作:將定性描述替換為具體、可量化的數據。

效果:這是論文中效果最顯著的方法之一,統計數據讓 AI 在摘要時有具體數字可引用,同時提高內容的可信度與被引用概率。

操作範例


3.3 Cite Sources(引用來源)

核心操作:在文章中加入明確的外部引用,包括學術論文、政府文件、業界報告的參考書目。

效果:這是論文中可見度提升最大的方法,在某些查詢類型下提升幅度可達 115%。原因在於生成式引擎本身強調可溯源性(attribution),傾向引用那些自身也有良好引用習慣的來源。

實作建議:不需要嵌入完整的 APA 格式,簡單在文末加上「資料來源:XX 報告(XXXX年)」即有效果。


3.4 Quotation Addition(直接引言加入)

核心操作:加入業界專家、學術研究者或官方文件的直接引用語句,以引號標明。

效果:論文數據顯示提升幅度約 30–40%。引言提供了一個「現成的引用句」,讓 AI 可以直接取用,而不必重新摘要。

操作範例

「根據 Google 2024 年搜尋狀態報告,『超過 60% 的搜尋查詢
以零點擊(zero-click)結束,生成式摘要是主要原因』。」

3.5 Easy-to-Understand / Simple Language(簡化語言)

核心操作:降低文章的閱讀難度,移除冗長的學術語句,改用簡潔明瞭的表達。

效果:此方法原理在於 LLM 的訓練資料偏好清晰易讀的文本,而過於學術化或口語化的內容在摘要時都可能被跳過。此方法效果屬中等,但對特定領域(如健康類查詢)效果顯著。


3.6 Fluency Optimization(流暢度優化)

核心操作:修正文法錯誤、調整句子結構、確保段落邏輯連貫,使文章讀起來流暢自然。

效果:流暢度直接影響 LLM 的摘要品質。一篇結構混亂、充滿錯別字的文章,即便內容有價值,也可能在 AI 摘要時被低估。此方法與「簡化語言」是互補的——前者處理複雜度,後者處理正確性。


3.7 Technical Terms(技術術語加入)

核心操作:在適當位置加入領域專有名詞與技術術語。

效果:效果因領域差異顯著——在科技、醫療、法律等專業領域,技術術語的加入可大幅提升專業信號,有助被引用;但在生活類、飲食類查詢中效果有限甚至反效果。

注意事項:術語要與內容實質相符,堆砌無關術語可能被 LLM 識別為低品質內容。


3.8 Unique Words(獨特詞彙加入)

核心操作:在文章中加入不常見但精確的詞彙,增加內容的語言獨特性。

效果:對抗 AI 回應的同質化問題。當多個來源使用相似的詞彙,AI 在摘要時可能將它們合併;擁有獨特詞彙的來源更容易被獨立引用,保有被明確提及的機會。


3.9 Keyword Stuffing(關鍵字填充,傳統 SEO 手法)

核心操作:在內容中重複塞入查詢相關的關鍵字(傳統 SEO 的常見手法)。

效果這是九種方法中表現最差的,論文實驗結果顯示此方法幾乎不帶來可見度提升,甚至可能微幅降低評分。這一結果清晰印證了 GEO 的核心洞見:生成式引擎不是關鍵字匹配機器,LLM 的語意理解讓傳統關鍵字堆砌策略完全失效。


四、實驗設計與各 Vendor 差異

4.1 GEO-bench 基準測試集

為系統性評估,Princeton 團隊構建了 GEO-bench,一個包含 10,000 筆查詢的大規模基準,資料來源涵蓋:

| 資料集 | 說明 | |---|---| | MS MARCO | 來自 Bing 搜尋的真實匿名查詢 | | ORCAS-1 | 另一批 Bing 搜尋查詢資料集 | | Natural Questions | Google 搜尋真實查詢(Kwiatkowski et al., 2019)| | AllSouls | 牛津大學 All Souls College 的論文題目,需多來源推理 | | LIMA | 需要推理能力的複雜問題(Zhou et al., 2023)| | Davinci-Debate | 辯論類問題(Liu et al., 2023b)| | Perplexity Discover | Perplexity.ai 的熱門即時查詢 | | ELI5 | Reddit 的「像我五歲一樣解釋」複雜問題 | | GPT-4 合成查詢 | 涵蓋科學、歷史等多領域,包括不同意圖與難度 |

基準集按 8:1:1 分為訓練/驗證/測試集,涵蓋 25 個領域(藝術、健康、遊戲、法律等),包含 80% 資訊型查詢、各 10% 的交易型與導航型查詢。

4.2 主實驗設置(模擬 GE)

主實驗使用兩步驟設計

  1. 以 Google 搜尋取得每個查詢的前 5 個來源網頁
  2. GPT-3.5-turbo 生成最終回應(temperature=0.7,取 5 次平均以減少變異)

此架構與 you.com、Perplexity.ai 的設計高度相似。

4.3 主要實驗結果

| GEO 方法 | Position-Adjusted WC 提升 | Subjective Impression 提升 | 備註 | |---|---|---|---| | Keyword Stuffing | 接近 0% | 接近 0% | 傳統 SEO 完全失效 | | Easy-to-Understand | 中等 | 中等 | 適合健康類查詢 | | Fluency | 中等 | 中等 | 基礎優化 | | Authoritative | 中等偏高 | 中等偏高 | 組合效果更佳 | | Unique Words | 中等 | 中等 | 抗同質化 | | Technical Terms | 領域差異大 | 領域差異大 | 專業領域有效 | | Easy-to-Understand | 中等 | 高(健康類)| 可及性查詢效果好 | | Statistics Addition | 高(∼40%+) | | 最強方法之一 | | Quotation Addition | 高(∼40%+) | | 最強方法之一 | | Cite Sources | 最高(可達 115%) | | 單次提升最大 |

關鍵發現:最佳方法在 Position-Adjusted Word Count 指標上超越基準 41%,在 Subjective Impression 上超越基準 28%

4.4 Perplexity.ai 真實環境驗證(Wild Experiments)

論文特別在 Perplexity.ai 這一商業生成式引擎上驗證 GEO 方法(Section C.1),結果顯示:

4.5 領域差異分析

論文強調「領域特異性」是 GEO 最重要的洞見之一。不同查詢領域的最優 GEO 策略組合差異顯著:

| 領域類型 | 最有效方法 | 最無效方法 | |---|---|---| | 科學 / 學術 | Technical Terms + Cite Sources | Keyword Stuffing | | 法律 / 政策 | Cite Sources + Quotation | Unique Words | | 健康 / 醫療 | Easy-to-Understand + Statistics | Technical Terms(過於晦澀)| | 烹飪 / 生活 | Fluency + Authoritative | Technical Terms | | 商業 / 財經 | Statistics + Cite Sources | Keyword Stuffing |

這說明沒有「萬用公式」——GEO 的實踐需要根據業務領域選擇對應的手法組合


五、台灣中小企業如何套用 GEO 方法

5.1 台灣數位行銷的 GEO 時代挑戰

台灣中小企業(SMEs)平均數位行銷預算有限,大多依賴 Google 自然搜尋流量。然而 Google AI Overviews 於 2024 年底開始在台灣中文查詢中顯著出現,加上台灣使用者對 Perplexity.ai、ChatGPT 搜尋功能的採用率快速上升,傳統 SEO 的報酬率正在下降。

以下是一個分資源投入級別的 GEO 導入路線圖,專為台灣中小企業設計:

5.2 低成本快速導入(成本:人力 1-2 天)

步驟一:現有內容的統計數據強化

找出網站上的定性敘述段落,逐一加入具體數字。參考資料來源:

改寫示例(以台灣餐飲業者為例):

改前:「台灣人非常喜愛外食,外送市場持續成長。」

改後:「台灣外食人口比例約 75%,餐飲業年產值突破 5,000 億元
(財政部,2023)。食品外送平台市場規模年增率維持在 15% 以上,
2023 年全年外送訂單突破 3 億筆(行政院消費者保護委員會,2024)。」

步驟二:加入業界引言

在每篇文章的開頭或關鍵論點後,加入一句業界人士的直接引用語,來源可以是:

步驟三:Fluency 優化

使用免費工具(如 Claude、ChatGPT)對現有文章進行流暢度校正,提示語可以是:

請幫我檢查以下段落的文法、標點,並在不改變意思的前提下
讓語句更通順流暢。保持繁體中文台灣用語。

5.3 中等投入(成本:建立 SOP,約 1 週)

GEO 內容發布標準作業程序(SOP)

建議台灣中小企業在現有內容管理流程中加入以下 checklist:

| 檢核項目 | 對應 GEO 方法 | 目標值 | |---|---|---| | 每段至少有 1 個具體數字/百分比 | Statistics Addition | 每 300 字至少 2 個統計數據 | | 文末有參考資料清單 | Cite Sources | 至少 3 個可驗證來源 | | 業界引言至少 1 條 | Quotation Addition | 每篇文章 1-2 條 | | 無明顯文法錯誤 | Fluency | Grammarly / LanguageTool 通過 | | 語氣專業確定 | Authoritative | 避免「可能」、「也許」等不確定語句 | | 包含領域核心術語 | Technical Terms | 至少 3 個專業術語有明確定義 |

開源工具推薦

5.4 高投入戰略佈局(長期競爭優勢)

建立「AI 友善內容資產庫」

與其每篇文章單獨優化,台灣中小企業應考慮建立一套結構化的知識庫,這是最符合 GEO 精神的長期策略:

  1. FAQ 頁面深度化:傳統 FAQ 只有問答,GEO 版 FAQ 每個回答都包含統計數據、來源引用和業界引言。AI 在回答使用者查詢時,FAQ 格式天然適合被引用。
  1. 定期發布原創調查數據:台灣 B2B 企業可定期對現有客戶做小型調查,將結果發布為研究報告。原創數據是 Cite Sources 和 Statistics 方法最高品質的素材來源,且競爭者難以複製。
  1. 建立 Schema Markup:雖然 GEO 論文未直接提及,但結構化資料標記幫助 AI 更精確地解析文章內容,與 Fluency 和 Technical Terms 優化形成互補。相關學術研究(Hogan et al., 2021, Knowledge Graphs)支持這一方向。

案例:台灣連鎖烘焙業應用 GEO

假設台灣某連鎖烘焙品牌希望在使用者詢問「台灣伴手禮推薦」時出現在 AI 回應中,可以這樣優化:

## 優化前(一般文案):
「我們的鳳梨酥是台灣最受歡迎的伴手禮之一,
使用天然食材製作,口感絕佳。」

## 優化後(套用 GEO 方法):
「鳳梨酥是台灣出口量最大的烘焙禮品,
每年出口值超過 20 億台幣(農業部食品安全委員會,2023)。
正如台灣食品科技研究所研究員林XX所言,
『真正的鳳梨酥應使用新鮮鳳梨而非果醬,
這是區分品質的首要標準』。
本品牌採用 100% 台灣本土鳳梨(台南、屏東契作農場),
酥皮中奶油含量達 32%,高於業界標準的 25%,
榮獲 2023 年台灣糕餅業競賽金牌。」

後者明確包含:統計數據(20億、32%、25%)、專家引言、可驗證來源、領域術語、權威語氣。

5.5 GEO 的倫理邊界與注意事項

GEO 論文本身也提出了對應的倫理反思。值得台灣業者注意:

  1. Keyword Stuffing 的消亡警示:不誠實的關鍵字堆砌在 SEO 時代已是灰帽手法,在 GEO 時代直接無效,不必浪費資源。
  1. 資料真實性為核心:所有統計數據、引用來源必須可以被查核。AI 系統本身有幻覺問題,若引用假數據反而可能因與其他來源矛盾而被降低引用機率。
  1. 長期品牌信任 > 短期能見度技巧:GEO 優化的本質是「讓 AI 信任你的內容」,這與讓真實使用者信任你的品牌目標是一致的,不存在根本矛盾。

六、延伸閱讀與學術資源

| 資源 | 說明 | |---|---| | arXiv:2311.09735 | GEO 論文原文(Open Access)| | generative-engines.com/GEO | 官方資源頁,含程式碼與 GEO-bench 資料集 | | Liu et al., 2023a — G-Eval: NLG Evaluation using GPT-4 | GEO 主觀指標所採用的評估框架 | | Ji et al., 2023 — Survey of Hallucination in NLG | LLM 幻覺問題背景研究 | | Brin & Page, 1998 — The PageRank Algorithm | 理解傳統搜尋排名以對照 GEO 差異 | | Zhou et al., 2023 — LIMA: Less Is More for Alignment | GEO-bench 資料來源之一 | | auriti-labs/geo-optimizer-skill | 開源 GEO 評分與優化工具 | | Kwiatkowski et al., 2019 — Natural Questions | GEO-bench 基礎資料集 |


七、結論

Princeton 大學 GEO 論文的核心貢獻可以歸納為三點:首創以量化指標衡量生成式引擎中的內容能見度(Position-Adjusted Word Count + Subjective Impression)、系統性驗證了九種優化手法的有效性(其中統計數據加入、引用來源、引言加入效果最佳,傳統關鍵字填充完全失效)、以及提供了首個大規模評估基準 GEO-bench(10,000 筆查詢,25 個領域)。

對台灣中小企業而言,GEO 不是一套需要大量技術投入的複雜系統,而是一套以高品質內容為核心的數位行銷新思維。加入真實可查核的統計數據、引用可信的外部來源、以清晰流暢的語言呈現專業知識——這些看似基本的內容原則,在生成式引擎主導的資訊查找時代,正是決定你的品牌是否出現在 AI 回應中的關鍵變數。

傳統 SEO 問的是「如何讓搜尋引擎找到我?」;GEO 問的是「如何讓 AI 信任我、引用我?」兩者的答案有本質的不同,而這個不同,正是台灣中小企業在 AI 時代建立數位競爭力的新起點。


本文深度解析論文:Aggarwal, P., Murahari, V., Rajpurohit, T., Kalyan, A., Narasimhan, K., & Deshpande, A. (2024). GEO: Generative Engine Optimization. KDD '24. https://arxiv.org/abs/2311.09735