Knowledge Graph 與 AEO 的關係 — 實體導向優化

由 CiphLens 團隊整理 · 來源：GitHub Copilot 研究 · 繁體中文

Google Knowledge Graph、Wikidata、Wikipedia 對 AI 引擎引用的深度解析

一、前言：知識圖譜成為 AI 引用的基礎設施

當 ChatGPT、Perplexity、Google AI Overview 等 AI 引擎回答「某某公司是做什麼的？」這類問題時，它們優先引用的並非隨機網頁，而是來自結構化知識圖譜的實體資料。Google Knowledge Graph（GKG）、Wikidata、Wikipedia 三者構成一條相互驗證的知識鏈：Wikipedia 提供人類撰寫的自然語言描述，Wikidata 提供機器可讀的結構化三元組（triple），GKG 則是 Google 搜尋與 Gemini 的推論底層。

理解這三層架構，是企業、研究機構在 AI 時代提升「可被引用性（citability）」的關鍵。

二、三層知識架構概覽

2.1 Google Knowledge Graph（GKG）

GKG 由 Google 於 2012 年推出，初期收錄約 5 億個實體，現已擴展至超過 500 億個事實節點。其資料來源包含：

Freebase（已停服，資料遷移至 Wikidata）
Wikipedia / Wikidata 的結構化匯入
Google 自行爬取的網頁結構化資料（Schema.org）
官方認領（Claim）流程

GKG 使用 Knowledge Graph Search API（kgsearch.googleapis.com）對外開放部分查詢。每個實體擁有唯一的 mid（Machine ID），例如 /m/0d6lp 代表台灣。

# 查詢實體是否已在 GKG 中
curl "https://kgsearch.googleapis.com/v1/entities:search?query=積木雲&types=Organization&key=YOUR_API_KEY"

AI 引擎如 Gemini 在生成實體描述時，會優先從 GKG 取得確定性事實（如成立年份、總部位置），再由 LLM 補充語意推論。

2.2 Wikidata

Wikidata（wikidata.org）是 Wikimedia 基金會維護的開放結構化知識庫，以 RDF 三元組格式儲存資料，遵循 Linked Open Data 標準。

每個實體稱為 Item，以 Q 編號標識，每個屬性稱為 Property，以 P 編號標識。

| 概念 | 示例 | |------|------| | 台積電（TSMC） | Q713065 | | 成立時間 | P571 | | 官方網站 | P856 | | Wikipedia 頁面 | P18（圖片）、sitelinks |

Wikidata 是 GKG 最重要的外部驗證來源之一。Google 在判斷一個實體是否值得在 Knowledge Panel 顯示時，會檢查該實體是否已在 Wikidata 中被充分描述。

2.3 Wikipedia

Wikipedia 對 AI 引擎的重要性常被低估。對大型語言模型（LLM）而言，Wikipedia 是預訓練語料中密度最高的高品質來源之一：

GPT 系列：Wikipedia 佔預訓練語料約 3%，但因品質高，影響力遠超比例
Llama 2 技術報告（Meta, 2023）明確指出 Wikipedia 是 "high-quality" 來源
RAG（Retrieval-Augmented Generation）系統中，Wikipedia 往往是預設的知識庫

學術論文 "REALM: Retrieval-Augmented Language Model Pre-Training"（Guu et al., Google Research, 2020）即以 Wikipedia 作為知識庫主體，展示結構化知識對 LLM 準確性的提升。

三、實體建立流程：從零到 Knowledge Panel

3.1 建立 Wikidata 實體

這是整個流程的起點，也是最容易被忽略的步驟。

步驟一：確認實體是否已存在

# SPARQL 查詢範例：搜尋台灣軟體公司
SELECT ?item ?itemLabel WHERE {
  ?item wdt:P31 wd:Q4830453.   # instance of: business
  ?item wdt:P17 wd:Q865.       # country: Taiwan
  SERVICE wikibase:label { bd:serviceParam wikibase:language "zh-TW,en". }
}
LIMIT 20

可在 Wikidata Query Service 直接執行。

步驟二：建立新 Item

登入 Wikidata 帳號（需至少 4 天帳齡、50 次編輯方可建立新條目）
前往 Special:NewItem
填寫標籤（label）：至少英文與繁體中文
填寫描述（description）：簡短一句，如 Taiwanese cloud infrastructure company

步驟三：填寫核心屬性（必填）

| 屬性 | Property ID | 備註 | |------|-------------|------| | instance of | P31 | 通常為 Q4830453（企業）或 Q3918（大學） | | country | P17 | Q865（台灣） | | founded | P571 | 日期格式 | | official website | P856 | HTTPS URL | | described at URL | P973 | 可引用公司官網、新聞稿 |

步驟四：新增 sameAs 等效連結（極為關鍵，詳見第五節）

3.2 建立 Wikipedia 條目

Wikipedia 的可信度門檻（Notability）是建立條目的最大障礙。英文維基百科要求實體必須符合以下任一條件：

在多個獨立可靠來源（non-self-published）中被深入報導
對其所在領域有顯著貢獻

對台灣企業而言，建議策略如下：

先從中文維基百科著手：門檻相對較低，且 Wikidata 會自動鏈接
收集第三方報導：至少 3 篇來自《聯合報》、《工商時報》、TechCrunch 等可靠媒體的深度報導
使用 Wikipedia Article Wizard：en.wikipedia.org/wiki/Wikipedia:Article_wizard

3.3 申請 Google Knowledge Panel

Knowledge Panel 並非「申請」而來，而是 GKG 在確認實體具有足夠信號後自動生成。但 Google 提供了官方認領（Claim your Knowledge Panel）機制，讓品牌能更新錯誤資訊。

觸發 Knowledge Panel 的信號強度排序（由強至弱）：

✅ Wikipedia 條目存在
✅ Wikidata Item 充分填寫
✅ 官網部署 Organization Schema.org 結構化資料
✅ Google Search Console 已驗證
✅ Google Business Profile 已建立
✅ 多個知名網站有一致的 NAP（Name, Address, Phone）資料

四、Wikipedia 條目的 AI 引用權重

4.1 為什麼 Wikipedia 在 AI 引用中佔有優勢

AI 引擎（尤其是 RAG 架構）在引用來源時，並非隨機選擇，而是依據以下訊號對來源進行可信度加權：

PageRank 類指標：Wikipedia 擁有數百萬個入鏈
結構一致性：Wikipedia 使用固定的 infobox 模板，易於機器解析
編輯歷史：多年的協同編輯代表高度稽核
Neutral Point of View（NPOV）：中立性原則使 LLM 訓練者偏好

學術研究 "WikiBERT: Adapting BERT to Wikipedia"（Virtanen et al., 2019）及 "T5: Exploring the Limits of Transfer Learning"（Raffel et al., Google, 2020）均顯示，在 Wikipedia 語料上微調的模型在事實性任務上表現顯著優於其他來源。

4.2 AI Overview 與 Wikipedia 的直接關係

Google AI Overview（前稱 Search Generative Experience）在生成摘要時，會透過以下路徑引用 Wikipedia：

使用者查詢
    ↓
GKG 查詢實體（命中 Wikipedia sitelink）
    ↓
取得 Wikipedia 條目摘要（first paragraph）
    ↓
結合 LLM 生成 AI Overview 摘要
    ↓
引用來源顯示 Wikipedia 連結

這意味著：若企業在 Wikipedia 上無條目，AI Overview 對其的描述將依賴品質不穩定的第三方來源，或根本不提及。

4.3 Perplexity 與開源 RAG 系統的引用行為

Perplexity AI 的引用機制更為透明。其底層使用類似於以下開源架構的系統：

LangChain：提供 WikipediaRetriever 元件，預設以 Wikipedia 作為知識來源
Haystack：WikipediaFetcher 節點
RAGatouille：ColBERT 架構，常以 Wikipedia 作為 benchmark 資料集

# LangChain WikipediaRetriever 示例
from langchain_community.retrievers import WikipediaRetriever

retriever = WikipediaRetriever(lang="zh", top_k_results=3)
docs = retriever.invoke("積木雲")
# 若無 Wikipedia 條目，回傳空列表，AI 將改用其他來源

五、SameAs Property：實體等價鏈接的核心

5.1 什麼是 sameAs

schema:sameAs（https://schema.org/sameAs）是連結同一現實世界實體在不同知識庫中不同 URI的關鍵屬性。它告訴搜尋引擎與 AI 系統：「這些不同網址描述的是同一個東西。」

5.2 在 Schema.org 結構化資料中使用

在企業官網的 <head> 中加入：

{
  "@context": "https://schema.org",
  "@type": "Organization",
  "name": "積木雲科技",
  "url": "https://example.com.tw",
  "sameAs": [
    "https://www.wikidata.org/wiki/Q12345678",
    "https://en.wikipedia.org/wiki/Example_Company",
    "https://zh.wikipedia.org/wiki/積木雲科技",
    "https://www.linkedin.com/company/example",
    "https://twitter.com/example"
  ]
}

GKG 的爬蟲在抓取此頁面後，會將這些 URI 全部合併到同一個實體節點，大幅提升實體解析（Entity Resolution）的準確度。

5.3 在 Wikidata 中使用對應屬性

Wikidata 中對應的屬性為：

| 目標 | 屬性 | |------|------| | Google Knowledge Graph ID | P2671 | | LinkedIn Company ID | P4264 | | Crunchbase Organization | P2088 | | GitHub Organization | P12097 | | 統一編號（台灣） | P3821 |

填寫這些屬性等同於建立跨資料庫的 sameAs 鏈接，是提升 GKG 收錄機率的最高 ROI 動作。

5.4 開源工具：自動化 sameAs 驗證

OpenRefine + Wikidata reconciliation：可批量將企業名稱清單與 Wikidata 進行實體對齊。

# 使用 wikidata-cli（Node.js）查詢實體
npx wikidata-cli wd data Q713065 --props P856,P2671,P4264

六、台灣企業缺乏 KG 條目的原因與補救

6.1 根本原因分析

台灣企業在全球知識圖譜中的覆蓋率遠低於其實際經濟規模，主要原因如下：

語言障礙

大多數台灣企業只維護中文資訊，而 Wikipedia/Wikidata 的國際曝光依賴英文條目
中文維基百科的可見度對 GKG 的貢獻低於英文版本

可驗證性不足

Wikipedia 的 Notability 要求第三方獨立來源，台灣本地媒體報導對英文維基百科的編輯社群認可度較低
許多企業的國際報導僅限於公關稿（自行發布），不符合 Wikipedia 的引用標準

技術認知缺口

多數台灣企業的 SEO/數位行銷團隊不熟悉結構化資料與知識圖譜的差異
網站缺少 Schema.org Organization 標記，導致 GKG 爬蟲無法自動建立實體

Wikidata 貢獻者稀少

根據 Wikidata 統計，台灣相關條目的主要貢獻者不超過 200 人，遠低於韓國（約 800 人）或日本（超過 2000 人）

6.2 補救策略：分階段執行

第一階段（1-2 個月）：建立基礎結構化資料

在官網部署 Organization + sameAs Schema.org
建立或完善 Wikidata Item
確保 Google Business Profile 資訊與 Wikidata 一致

第二階段（2-4 個月）：建立維基百科條目

收集至少 5 篇符合 Wikipedia 引用標準的第三方報導（非新聞稿）
先建立中文維基百科條目，完善後翻譯為英文
在 Wikidata 中連結 Wikipedia sitelinks

第三階段（4-6 個月）：強化信號密度

在 Crunchbase、LinkedIn、GitHub Organization 等可信平台建立一致的實體資料
在 Wikidata 中填寫 P2671（GKG ID），完成閉環驗證
申請 Google Knowledge Panel 認領，更正可能的錯誤資訊

6.3 開源資源：台灣知識圖譜社群

WikiProject Taiwan：英文維基百科台灣專案，可尋求協助
台灣維基媒體協會：定期舉辦編輯松（Edit-a-thon）
kgtk（USC ISI）：Knowledge Graph Toolkit，可用於本地知識圖譜建構與 Wikidata 資料轉換

七、進階主題：AI 引擎的實體引用機制

7.1 Named Entity Disambiguation（NED）

當 AI 引擎看到「台積電」這個詞，它需要將其消歧義（disambiguate）為 Wikidata 的 Q713065。這個過程依賴：

Wikidata 的 alias（別名）欄位
Wikipedia 的重定向頁面
GKG 的 name 與 alternateName

若企業名稱在這三個系統中缺少繁體中文別名，AI 引擎極可能無法正確識別該實體，導致引用錯誤或遺漏。

學術參考："End-to-End Neural Entity Linking"（Kolitsas et al., EMNLP 2018）及開源系統 REL（Radboud Entity Linker）均展示了 Wikidata 別名對 NED 準確率的決定性影響。

7.2 Knowledge Graph Embedding 與 AI 推論

現代 AI 系統不只是查詢 KG，還會透過 KG Embedding 技術學習實體間的語意關係：

PyKEEN：支援 TransE、RotatE 等主流 KG Embedding 演算法，以 Wikidata 作為主要 benchmark
DGL-KE（AWS）：分散式 KG 訓練框架

實體在 Wikidata 中的關係豐富度（填寫的屬性數量）直接影響其在 KG Embedding 空間中的表示品質，進而影響 AI 在推論時對該實體的「理解深度」。

八、總結與行動清單

知識圖譜生態系統對 AI 引用的影響已超越傳統 SEO 的範疇。對台灣企業而言，可被 AI 正確引用是數位公信力的新標準。

| 優先順序 | 行動項目 | 預期效果 | |----------|----------|----------| | 🔴 立即 | 官網部署 Schema.org + sameAs | GKG 爬蟲識別實體 | | 🔴 立即 | 建立/完善 Wikidata Item | GKG 驗證來源 | | 🟠 短期 | 建立中文 Wikipedia 條目 | AI 引用主要來源 | | 🟠 短期 | 填寫 Wikidata 跨平台 ID | 實體等價鏈接 | | 🟡 中期 | 建立英文 Wikipedia 條目 | 全球 AI 引用覆蓋 | | 🟡 中期 | 申請 Google Knowledge Panel | 官方資訊控制 | | 🟢 長期 | 持續維護 Wikidata 屬性 | AI 推論品質提升 |

在 AI 搜尋時代，不存在於知識圖譜中，等同於不存在於 AI 的認知世界中。

參考資料

Guu, K. et al. (2020). REALM: Retrieval-Augmented Language Model Pre-Training. Google Research. arXiv:2002.08909
Touvron, H. et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models. Meta AI. arXiv:2307.09288
Kolitsas, N. et al. (2018). End-to-End Neural Entity Linking. EMNLP. arXiv:1808.07699
Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Google Brain. arXiv:1910.10683
LangChain WikipediaRetriever
PyKEEN Knowledge Graph Embedding Library
KGTK: Knowledge Graph Toolkit
Wikidata SPARQL Query Service
Schema.org Organization