Knowledge Graph 與 AEO 的關係 — 實體導向優化
由 CiphLens 團隊整理 · 來源:GitHub Copilot 研究 · 繁體中文
Google Knowledge Graph、Wikidata、Wikipedia 對 AI 引擎引用的深度解析
一、前言:知識圖譜成為 AI 引用的基礎設施
當 ChatGPT、Perplexity、Google AI Overview 等 AI 引擎回答「某某公司是做什麼的?」這類問題時,它們優先引用的並非隨機網頁,而是來自結構化知識圖譜的實體資料。Google Knowledge Graph(GKG)、Wikidata、Wikipedia 三者構成一條相互驗證的知識鏈:Wikipedia 提供人類撰寫的自然語言描述,Wikidata 提供機器可讀的結構化三元組(triple),GKG 則是 Google 搜尋與 Gemini 的推論底層。
理解這三層架構,是企業、研究機構在 AI 時代提升「可被引用性(citability)」的關鍵。
二、三層知識架構概覽
2.1 Google Knowledge Graph(GKG)
GKG 由 Google 於 2012 年推出,初期收錄約 5 億個實體,現已擴展至超過 500 億個事實節點。其資料來源包含:
- Freebase(已停服,資料遷移至 Wikidata)
- Wikipedia / Wikidata 的結構化匯入
- Google 自行爬取的網頁結構化資料(Schema.org)
- 官方認領(Claim)流程
GKG 使用 Knowledge Graph Search API(kgsearch.googleapis.com)對外開放部分查詢。每個實體擁有唯一的 mid(Machine ID),例如 /m/0d6lp 代表台灣。
# 查詢實體是否已在 GKG 中
curl "https://kgsearch.googleapis.com/v1/entities:search?query=積木雲&types=Organization&key=YOUR_API_KEY"
AI 引擎如 Gemini 在生成實體描述時,會優先從 GKG 取得確定性事實(如成立年份、總部位置),再由 LLM 補充語意推論。
2.2 Wikidata
Wikidata(wikidata.org)是 Wikimedia 基金會維護的開放結構化知識庫,以 RDF 三元組格式儲存資料,遵循 Linked Open Data 標準。
每個實體稱為 Item,以 Q 編號標識,每個屬性稱為 Property,以 P 編號標識。
| 概念 | 示例 | |------|------| | 台積電(TSMC) | Q713065 | | 成立時間 | P571 | | 官方網站 | P856 | | Wikipedia 頁面 | P18(圖片)、sitelinks |
Wikidata 是 GKG 最重要的外部驗證來源之一。Google 在判斷一個實體是否值得在 Knowledge Panel 顯示時,會檢查該實體是否已在 Wikidata 中被充分描述。
2.3 Wikipedia
Wikipedia 對 AI 引擎的重要性常被低估。對大型語言模型(LLM)而言,Wikipedia 是預訓練語料中密度最高的高品質來源之一:
- GPT 系列:Wikipedia 佔預訓練語料約 3%,但因品質高,影響力遠超比例
- Llama 2 技術報告(Meta, 2023)明確指出 Wikipedia 是 "high-quality" 來源
- RAG(Retrieval-Augmented Generation)系統中,Wikipedia 往往是預設的知識庫
學術論文 "REALM: Retrieval-Augmented Language Model Pre-Training"(Guu et al., Google Research, 2020)即以 Wikipedia 作為知識庫主體,展示結構化知識對 LLM 準確性的提升。
三、實體建立流程:從零到 Knowledge Panel
3.1 建立 Wikidata 實體
這是整個流程的起點,也是最容易被忽略的步驟。
步驟一:確認實體是否已存在
# SPARQL 查詢範例:搜尋台灣軟體公司
SELECT ?item ?itemLabel WHERE {
?item wdt:P31 wd:Q4830453. # instance of: business
?item wdt:P17 wd:Q865. # country: Taiwan
SERVICE wikibase:label { bd:serviceParam wikibase:language "zh-TW,en". }
}
LIMIT 20
可在 Wikidata Query Service 直接執行。
步驟二:建立新 Item
- 登入 Wikidata 帳號(需至少 4 天帳齡、50 次編輯方可建立新條目)
- 前往 Special:NewItem
- 填寫標籤(label):至少英文與繁體中文
- 填寫描述(description):簡短一句,如
Taiwanese cloud infrastructure company
步驟三:填寫核心屬性(必填)
| 屬性 | Property ID | 備註 | |------|-------------|------| | instance of | P31 | 通常為 Q4830453(企業)或 Q3918(大學) | | country | P17 | Q865(台灣) | | founded | P571 | 日期格式 | | official website | P856 | HTTPS URL | | described at URL | P973 | 可引用公司官網、新聞稿 |
步驟四:新增 sameAs 等效連結(極為關鍵,詳見第五節)
3.2 建立 Wikipedia 條目
Wikipedia 的可信度門檻(Notability)是建立條目的最大障礙。英文維基百科要求實體必須符合以下任一條件:
- 在多個獨立可靠來源(non-self-published)中被深入報導
- 對其所在領域有顯著貢獻
對台灣企業而言,建議策略如下:
- 先從中文維基百科著手:門檻相對較低,且 Wikidata 會自動鏈接
- 收集第三方報導:至少 3 篇來自《聯合報》、《工商時報》、TechCrunch 等可靠媒體的深度報導
- 使用 Wikipedia Article Wizard:
en.wikipedia.org/wiki/Wikipedia:Article_wizard
3.3 申請 Google Knowledge Panel
Knowledge Panel 並非「申請」而來,而是 GKG 在確認實體具有足夠信號後自動生成。但 Google 提供了官方認領(Claim your Knowledge Panel)機制,讓品牌能更新錯誤資訊。
觸發 Knowledge Panel 的信號強度排序(由強至弱):
- ✅ Wikipedia 條目存在
- ✅ Wikidata Item 充分填寫
- ✅ 官網部署
OrganizationSchema.org 結構化資料 - ✅ Google Search Console 已驗證
- ✅ Google Business Profile 已建立
- ✅ 多個知名網站有一致的 NAP(Name, Address, Phone)資料
四、Wikipedia 條目的 AI 引用權重
4.1 為什麼 Wikipedia 在 AI 引用中佔有優勢
AI 引擎(尤其是 RAG 架構)在引用來源時,並非隨機選擇,而是依據以下訊號對來源進行可信度加權:
- PageRank 類指標:Wikipedia 擁有數百萬個入鏈
- 結構一致性:Wikipedia 使用固定的 infobox 模板,易於機器解析
- 編輯歷史:多年的協同編輯代表高度稽核
- Neutral Point of View(NPOV):中立性原則使 LLM 訓練者偏好
學術研究 "WikiBERT: Adapting BERT to Wikipedia"(Virtanen et al., 2019)及 "T5: Exploring the Limits of Transfer Learning"(Raffel et al., Google, 2020)均顯示,在 Wikipedia 語料上微調的模型在事實性任務上表現顯著優於其他來源。
4.2 AI Overview 與 Wikipedia 的直接關係
Google AI Overview(前稱 Search Generative Experience)在生成摘要時,會透過以下路徑引用 Wikipedia:
使用者查詢
↓
GKG 查詢實體(命中 Wikipedia sitelink)
↓
取得 Wikipedia 條目摘要(first paragraph)
↓
結合 LLM 生成 AI Overview 摘要
↓
引用來源顯示 Wikipedia 連結
這意味著:若企業在 Wikipedia 上無條目,AI Overview 對其的描述將依賴品質不穩定的第三方來源,或根本不提及。
4.3 Perplexity 與開源 RAG 系統的引用行為
Perplexity AI 的引用機制更為透明。其底層使用類似於以下開源架構的系統:
- LangChain:提供
WikipediaRetriever元件,預設以 Wikipedia 作為知識來源 - Haystack:
WikipediaFetcher節點 - RAGatouille:ColBERT 架構,常以 Wikipedia 作為 benchmark 資料集
# LangChain WikipediaRetriever 示例
from langchain_community.retrievers import WikipediaRetriever
retriever = WikipediaRetriever(lang="zh", top_k_results=3)
docs = retriever.invoke("積木雲")
# 若無 Wikipedia 條目,回傳空列表,AI 將改用其他來源
五、SameAs Property:實體等價鏈接的核心
5.1 什麼是 sameAs
schema:sameAs(https://schema.org/sameAs)是連結同一現實世界實體在不同知識庫中不同 URI的關鍵屬性。它告訴搜尋引擎與 AI 系統:「這些不同網址描述的是同一個東西。」
5.2 在 Schema.org 結構化資料中使用
在企業官網的 <head> 中加入:
{
"@context": "https://schema.org",
"@type": "Organization",
"name": "積木雲科技",
"url": "https://example.com.tw",
"sameAs": [
"https://www.wikidata.org/wiki/Q12345678",
"https://en.wikipedia.org/wiki/Example_Company",
"https://zh.wikipedia.org/wiki/積木雲科技",
"https://www.linkedin.com/company/example",
"https://twitter.com/example"
]
}
GKG 的爬蟲在抓取此頁面後,會將這些 URI 全部合併到同一個實體節點,大幅提升實體解析(Entity Resolution)的準確度。
5.3 在 Wikidata 中使用對應屬性
Wikidata 中對應的屬性為:
| 目標 | 屬性 | |------|------| | Google Knowledge Graph ID | P2671 | | LinkedIn Company ID | P4264 | | Crunchbase Organization | P2088 | | GitHub Organization | P12097 | | 統一編號(台灣) | P3821 |
填寫這些屬性等同於建立跨資料庫的 sameAs 鏈接,是提升 GKG 收錄機率的最高 ROI 動作。
5.4 開源工具:自動化 sameAs 驗證
OpenRefine + Wikidata reconciliation:可批量將企業名稱清單與 Wikidata 進行實體對齊。
# 使用 wikidata-cli(Node.js)查詢實體
npx wikidata-cli wd data Q713065 --props P856,P2671,P4264
六、台灣企業缺乏 KG 條目的原因與補救
6.1 根本原因分析
台灣企業在全球知識圖譜中的覆蓋率遠低於其實際經濟規模,主要原因如下:
語言障礙
- 大多數台灣企業只維護中文資訊,而 Wikipedia/Wikidata 的國際曝光依賴英文條目
- 中文維基百科的可見度對 GKG 的貢獻低於英文版本
可驗證性不足
- Wikipedia 的 Notability 要求第三方獨立來源,台灣本地媒體報導對英文維基百科的編輯社群認可度較低
- 許多企業的國際報導僅限於公關稿(自行發布),不符合 Wikipedia 的引用標準
技術認知缺口
- 多數台灣企業的 SEO/數位行銷團隊不熟悉結構化資料與知識圖譜的差異
- 網站缺少 Schema.org
Organization標記,導致 GKG 爬蟲無法自動建立實體
Wikidata 貢獻者稀少
- 根據 Wikidata 統計,台灣相關條目的主要貢獻者不超過 200 人,遠低於韓國(約 800 人)或日本(超過 2000 人)
6.2 補救策略:分階段執行
第一階段(1-2 個月):建立基礎結構化資料
- 在官網部署
Organization+sameAsSchema.org - 建立或完善 Wikidata Item
- 確保 Google Business Profile 資訊與 Wikidata 一致
第二階段(2-4 個月):建立維基百科條目
- 收集至少 5 篇符合 Wikipedia 引用標準的第三方報導(非新聞稿)
- 先建立中文維基百科條目,完善後翻譯為英文
- 在 Wikidata 中連結 Wikipedia sitelinks
第三階段(4-6 個月):強化信號密度
- 在 Crunchbase、LinkedIn、GitHub Organization 等可信平台建立一致的實體資料
- 在 Wikidata 中填寫
P2671(GKG ID),完成閉環驗證 - 申請 Google Knowledge Panel 認領,更正可能的錯誤資訊
6.3 開源資源:台灣知識圖譜社群
- WikiProject Taiwan:英文維基百科台灣專案,可尋求協助
- 台灣維基媒體協會:定期舉辦編輯松(Edit-a-thon)
- kgtk(USC ISI):Knowledge Graph Toolkit,可用於本地知識圖譜建構與 Wikidata 資料轉換
七、進階主題:AI 引擎的實體引用機制
7.1 Named Entity Disambiguation(NED)
當 AI 引擎看到「台積電」這個詞,它需要將其消歧義(disambiguate)為 Wikidata 的 Q713065。這個過程依賴:
- Wikidata 的
alias(別名)欄位 - Wikipedia 的重定向頁面
- GKG 的
name與alternateName
若企業名稱在這三個系統中缺少繁體中文別名,AI 引擎極可能無法正確識別該實體,導致引用錯誤或遺漏。
學術參考:"End-to-End Neural Entity Linking"(Kolitsas et al., EMNLP 2018)及開源系統 REL(Radboud Entity Linker)均展示了 Wikidata 別名對 NED 準確率的決定性影響。
7.2 Knowledge Graph Embedding 與 AI 推論
現代 AI 系統不只是查詢 KG,還會透過 KG Embedding 技術學習實體間的語意關係:
實體在 Wikidata 中的關係豐富度(填寫的屬性數量)直接影響其在 KG Embedding 空間中的表示品質,進而影響 AI 在推論時對該實體的「理解深度」。
八、總結與行動清單
知識圖譜生態系統對 AI 引用的影響已超越傳統 SEO 的範疇。對台灣企業而言,可被 AI 正確引用是數位公信力的新標準。
| 優先順序 | 行動項目 | 預期效果 | |----------|----------|----------| | 🔴 立即 | 官網部署 Schema.org + sameAs | GKG 爬蟲識別實體 | | 🔴 立即 | 建立/完善 Wikidata Item | GKG 驗證來源 | | 🟠 短期 | 建立中文 Wikipedia 條目 | AI 引用主要來源 | | 🟠 短期 | 填寫 Wikidata 跨平台 ID | 實體等價鏈接 | | 🟡 中期 | 建立英文 Wikipedia 條目 | 全球 AI 引用覆蓋 | | 🟡 中期 | 申請 Google Knowledge Panel | 官方資訊控制 | | 🟢 長期 | 持續維護 Wikidata 屬性 | AI 推論品質提升 |
在 AI 搜尋時代,不存在於知識圖譜中,等同於不存在於 AI 的認知世界中。
參考資料
- Guu, K. et al. (2020). REALM: Retrieval-Augmented Language Model Pre-Training. Google Research. arXiv:2002.08909
- Touvron, H. et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models. Meta AI. arXiv:2307.09288
- Kolitsas, N. et al. (2018). End-to-End Neural Entity Linking. EMNLP. arXiv:1808.07699
- Raffel, C. et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Google Brain. arXiv:1910.10683
- LangChain WikipediaRetriever
- PyKEEN Knowledge Graph Embedding Library
- KGTK: Knowledge Graph Toolkit
- Wikidata SPARQL Query Service
- Schema.org Organization