← 返回資源庫

Knowledge Graph 與 AEO 的關係 — 實體導向優化

由 CiphLens 團隊整理 · 來源:GitHub Copilot 研究 · 繁體中文

Google Knowledge Graph、Wikidata、Wikipedia 對 AI 引擎引用的深度解析


一、前言:知識圖譜成為 AI 引用的基礎設施

當 ChatGPT、Perplexity、Google AI Overview 等 AI 引擎回答「某某公司是做什麼的?」這類問題時,它們優先引用的並非隨機網頁,而是來自結構化知識圖譜的實體資料。Google Knowledge Graph(GKG)、Wikidata、Wikipedia 三者構成一條相互驗證的知識鏈:Wikipedia 提供人類撰寫的自然語言描述,Wikidata 提供機器可讀的結構化三元組(triple),GKG 則是 Google 搜尋與 Gemini 的推論底層。

理解這三層架構,是企業、研究機構在 AI 時代提升「可被引用性(citability)」的關鍵。


二、三層知識架構概覽

2.1 Google Knowledge Graph(GKG)

GKG 由 Google 於 2012 年推出,初期收錄約 5 億個實體,現已擴展至超過 500 億個事實節點。其資料來源包含:

GKG 使用 Knowledge Graph Search APIkgsearch.googleapis.com)對外開放部分查詢。每個實體擁有唯一的 mid(Machine ID),例如 /m/0d6lp 代表台灣。

# 查詢實體是否已在 GKG 中
curl "https://kgsearch.googleapis.com/v1/entities:search?query=積木雲&types=Organization&key=YOUR_API_KEY"

AI 引擎如 Gemini 在生成實體描述時,會優先從 GKG 取得確定性事實(如成立年份、總部位置),再由 LLM 補充語意推論。

2.2 Wikidata

Wikidata(wikidata.org)是 Wikimedia 基金會維護的開放結構化知識庫,以 RDF 三元組格式儲存資料,遵循 Linked Open Data 標準。

每個實體稱為 Item,以 Q 編號標識,每個屬性稱為 Property,以 P 編號標識。

| 概念 | 示例 | |------|------| | 台積電(TSMC) | Q713065 | | 成立時間 | P571 | | 官方網站 | P856 | | Wikipedia 頁面 | P18(圖片)、sitelinks |

Wikidata 是 GKG 最重要的外部驗證來源之一。Google 在判斷一個實體是否值得在 Knowledge Panel 顯示時,會檢查該實體是否已在 Wikidata 中被充分描述。

2.3 Wikipedia

Wikipedia 對 AI 引擎的重要性常被低估。對大型語言模型(LLM)而言,Wikipedia 是預訓練語料中密度最高的高品質來源之一:

學術論文 "REALM: Retrieval-Augmented Language Model Pre-Training"(Guu et al., Google Research, 2020)即以 Wikipedia 作為知識庫主體,展示結構化知識對 LLM 準確性的提升。


三、實體建立流程:從零到 Knowledge Panel

3.1 建立 Wikidata 實體

這是整個流程的起點,也是最容易被忽略的步驟。

步驟一:確認實體是否已存在

# SPARQL 查詢範例:搜尋台灣軟體公司
SELECT ?item ?itemLabel WHERE {
  ?item wdt:P31 wd:Q4830453.   # instance of: business
  ?item wdt:P17 wd:Q865.       # country: Taiwan
  SERVICE wikibase:label { bd:serviceParam wikibase:language "zh-TW,en". }
}
LIMIT 20

可在 Wikidata Query Service 直接執行。

步驟二:建立新 Item

  1. 登入 Wikidata 帳號(需至少 4 天帳齡、50 次編輯方可建立新條目)
  2. 前往 Special:NewItem
  3. 填寫標籤(label):至少英文與繁體中文
  4. 填寫描述(description):簡短一句,如 Taiwanese cloud infrastructure company

步驟三:填寫核心屬性(必填)

| 屬性 | Property ID | 備註 | |------|-------------|------| | instance of | P31 | 通常為 Q4830453(企業)或 Q3918(大學) | | country | P17 | Q865(台灣) | | founded | P571 | 日期格式 | | official website | P856 | HTTPS URL | | described at URL | P973 | 可引用公司官網、新聞稿 |

步驟四:新增 sameAs 等效連結(極為關鍵,詳見第五節)

3.2 建立 Wikipedia 條目

Wikipedia 的可信度門檻(Notability)是建立條目的最大障礙。英文維基百科要求實體必須符合以下任一條件:

對台灣企業而言,建議策略如下:

  1. 先從中文維基百科著手:門檻相對較低,且 Wikidata 會自動鏈接
  2. 收集第三方報導:至少 3 篇來自《聯合報》、《工商時報》、TechCrunch 等可靠媒體的深度報導
  3. 使用 Wikipedia Article Wizarden.wikipedia.org/wiki/Wikipedia:Article_wizard

3.3 申請 Google Knowledge Panel

Knowledge Panel 並非「申請」而來,而是 GKG 在確認實體具有足夠信號後自動生成。但 Google 提供了官方認領(Claim your Knowledge Panel)機制,讓品牌能更新錯誤資訊。

觸發 Knowledge Panel 的信號強度排序(由強至弱):

  1. ✅ Wikipedia 條目存在
  2. ✅ Wikidata Item 充分填寫
  3. ✅ 官網部署 Organization Schema.org 結構化資料
  4. ✅ Google Search Console 已驗證
  5. ✅ Google Business Profile 已建立
  6. ✅ 多個知名網站有一致的 NAP(Name, Address, Phone)資料

四、Wikipedia 條目的 AI 引用權重

4.1 為什麼 Wikipedia 在 AI 引用中佔有優勢

AI 引擎(尤其是 RAG 架構)在引用來源時,並非隨機選擇,而是依據以下訊號對來源進行可信度加權

學術研究 "WikiBERT: Adapting BERT to Wikipedia"(Virtanen et al., 2019)及 "T5: Exploring the Limits of Transfer Learning"(Raffel et al., Google, 2020)均顯示,在 Wikipedia 語料上微調的模型在事實性任務上表現顯著優於其他來源。

4.2 AI Overview 與 Wikipedia 的直接關係

Google AI Overview(前稱 Search Generative Experience)在生成摘要時,會透過以下路徑引用 Wikipedia:

使用者查詢
    ↓
GKG 查詢實體(命中 Wikipedia sitelink)
    ↓
取得 Wikipedia 條目摘要(first paragraph)
    ↓
結合 LLM 生成 AI Overview 摘要
    ↓
引用來源顯示 Wikipedia 連結

這意味著:若企業在 Wikipedia 上無條目,AI Overview 對其的描述將依賴品質不穩定的第三方來源,或根本不提及

4.3 Perplexity 與開源 RAG 系統的引用行為

Perplexity AI 的引用機制更為透明。其底層使用類似於以下開源架構的系統:

# LangChain WikipediaRetriever 示例
from langchain_community.retrievers import WikipediaRetriever

retriever = WikipediaRetriever(lang="zh", top_k_results=3)
docs = retriever.invoke("積木雲")
# 若無 Wikipedia 條目,回傳空列表,AI 將改用其他來源

五、SameAs Property:實體等價鏈接的核心

5.1 什麼是 sameAs

schema:sameAshttps://schema.org/sameAs)是連結同一現實世界實體在不同知識庫中不同 URI的關鍵屬性。它告訴搜尋引擎與 AI 系統:「這些不同網址描述的是同一個東西。」

5.2 在 Schema.org 結構化資料中使用

在企業官網的 <head> 中加入:

{
  "@context": "https://schema.org",
  "@type": "Organization",
  "name": "積木雲科技",
  "url": "https://example.com.tw",
  "sameAs": [
    "https://www.wikidata.org/wiki/Q12345678",
    "https://en.wikipedia.org/wiki/Example_Company",
    "https://zh.wikipedia.org/wiki/積木雲科技",
    "https://www.linkedin.com/company/example",
    "https://twitter.com/example"
  ]
}

GKG 的爬蟲在抓取此頁面後,會將這些 URI 全部合併到同一個實體節點,大幅提升實體解析(Entity Resolution)的準確度

5.3 在 Wikidata 中使用對應屬性

Wikidata 中對應的屬性為:

| 目標 | 屬性 | |------|------| | Google Knowledge Graph ID | P2671 | | LinkedIn Company ID | P4264 | | Crunchbase Organization | P2088 | | GitHub Organization | P12097 | | 統一編號(台灣) | P3821 |

填寫這些屬性等同於建立跨資料庫的 sameAs 鏈接,是提升 GKG 收錄機率的最高 ROI 動作

5.4 開源工具:自動化 sameAs 驗證

OpenRefine + Wikidata reconciliation:可批量將企業名稱清單與 Wikidata 進行實體對齊。

# 使用 wikidata-cli(Node.js)查詢實體
npx wikidata-cli wd data Q713065 --props P856,P2671,P4264

六、台灣企業缺乏 KG 條目的原因與補救

6.1 根本原因分析

台灣企業在全球知識圖譜中的覆蓋率遠低於其實際經濟規模,主要原因如下:

語言障礙

可驗證性不足

技術認知缺口

Wikidata 貢獻者稀少

6.2 補救策略:分階段執行

第一階段(1-2 個月):建立基礎結構化資料

  1. 在官網部署 Organization + sameAs Schema.org
  2. 建立或完善 Wikidata Item
  3. 確保 Google Business Profile 資訊與 Wikidata 一致

第二階段(2-4 個月):建立維基百科條目

  1. 收集至少 5 篇符合 Wikipedia 引用標準的第三方報導(非新聞稿)
  2. 先建立中文維基百科條目,完善後翻譯為英文
  3. 在 Wikidata 中連結 Wikipedia sitelinks

第三階段(4-6 個月):強化信號密度

  1. 在 Crunchbase、LinkedIn、GitHub Organization 等可信平台建立一致的實體資料
  2. 在 Wikidata 中填寫 P2671(GKG ID),完成閉環驗證
  3. 申請 Google Knowledge Panel 認領,更正可能的錯誤資訊

6.3 開源資源:台灣知識圖譜社群


七、進階主題:AI 引擎的實體引用機制

7.1 Named Entity Disambiguation(NED)

當 AI 引擎看到「台積電」這個詞,它需要將其消歧義(disambiguate)為 Wikidata 的 Q713065。這個過程依賴:

若企業名稱在這三個系統中缺少繁體中文別名,AI 引擎極可能無法正確識別該實體,導致引用錯誤或遺漏。

學術參考:"End-to-End Neural Entity Linking"(Kolitsas et al., EMNLP 2018)及開源系統 REL(Radboud Entity Linker)均展示了 Wikidata 別名對 NED 準確率的決定性影響。

7.2 Knowledge Graph Embedding 與 AI 推論

現代 AI 系統不只是查詢 KG,還會透過 KG Embedding 技術學習實體間的語意關係:

實體在 Wikidata 中的關係豐富度(填寫的屬性數量)直接影響其在 KG Embedding 空間中的表示品質,進而影響 AI 在推論時對該實體的「理解深度」。


八、總結與行動清單

知識圖譜生態系統對 AI 引用的影響已超越傳統 SEO 的範疇。對台灣企業而言,可被 AI 正確引用是數位公信力的新標準。

| 優先順序 | 行動項目 | 預期效果 | |----------|----------|----------| | 🔴 立即 | 官網部署 Schema.org + sameAs | GKG 爬蟲識別實體 | | 🔴 立即 | 建立/完善 Wikidata Item | GKG 驗證來源 | | 🟠 短期 | 建立中文 Wikipedia 條目 | AI 引用主要來源 | | 🟠 短期 | 填寫 Wikidata 跨平台 ID | 實體等價鏈接 | | 🟡 中期 | 建立英文 Wikipedia 條目 | 全球 AI 引用覆蓋 | | 🟡 中期 | 申請 Google Knowledge Panel | 官方資訊控制 | | 🟢 長期 | 持續維護 Wikidata 屬性 | AI 推論品質提升 |

在 AI 搜尋時代,不存在於知識圖譜中,等同於不存在於 AI 的認知世界中


參考資料