多語 AEO — 台灣企業面向英日韓市場的 AI 曝光
由 CiphLens 團隊整理 · 來源:GitHub Copilot 研究 · 繁體中文
台灣企業多語 AEO 策略:讓 AI 引擎在英語/日語/韓語 Query 中主動提及你的品牌
一、背景:為什麼 AI 引擎會「選擇性遺忘」非英語品牌
大型語言模型(LLM)的知識來自預訓練語料的分布。根據 Blevins & Zettlemoyer(2022)的研究《Language Contamination Helps Explains the Cross-lingual Capabilities of English Pretrained Models》,英語語料在主流預訓練集中佔比超過 60%,日語約 3%,韓語不足 2%,繁體中文更因簡繁混算而被稀釋。這種不均等分布造成了一個結構性問題:台灣企業即使在中文語境下知名度極高,一旦 Query 語言切換為英語、日語或韓語,LLM 的 entity recall(實體召回率)便大幅下滑。
以玉山金控為例,在中文 Query「台灣最大民營銀行」下,ChatGPT 與 Gemini 均能正確列出;但同樣語意的英語 Query「largest private bank in Taiwan」,AI 有時會回答 Cathay United Bank 或甚至給出錯誤資訊。這不是品牌本身的問題,而是結構化知識信號在跨語言空間的傳遞斷層。
本文提供一套系統性策略,協助台灣企業修補這個斷層。
二、基礎建設:hreflang 的正確語義
2.1 hreflang 的 AEO 功能不只是 SEO
傳統上 hreflang 被視為 Google 搜尋的多語言 URL 指示器,但在 AI 爬取與索引的脈絡下,它承擔更深的語義責任:它告訴爬蟲這個 entity 在不同語言下的權威版本在哪裡。
正確範例(以玉山金控為例):
<link rel="alternate" hreflang="zh-TW" href="https://www.esunbank.com/zh-TW/about" />
<link rel="alternate" hreflang="en" href="https://www.esunbank.com/en/about" />
<link rel="alternate" hreflang="ja" href="https://www.esunbank.com/ja/about" />
<link rel="alternate" hreflang="ko" href="https://www.esunbank.com/ko/about" />
<link rel="alternate" hreflang="x-default" href="https://www.esunbank.com/en/about" />
常見錯誤:
- 使用
zh而非zh-TW,導致簡繁版本混用 - 英語頁面缺少
x-default,造成 canonical 信號模糊 - 日語頁面只有機器翻譯,無原生 Schema.org 標記
2.2 結合 JSON-LD 強化跨語言 entity
hreflang 需搭配 sameAs 屬性才能形成完整的跨語言 entity graph:
{
"@context": "https://schema.org",
"@type": "Corporation",
"name": "E.SUN Financial Holding",
"alternateName": ["玉山金控", "イーサン金融", "이선금융"],
"sameAs": [
"https://www.wikidata.org/wiki/Q5331398",
"https://en.wikipedia.org/wiki/E.SUN_Financial_Holding",
"https://ja.wikipedia.org/wiki/玉山金融控股",
"https://www.bloomberg.com/quote/2884:TT"
],
"url": "https://www.esunbank.com"
}
sameAs 中的 Wikidata QID 是跨語言 entity 連結的錨點,所有語言的 Wikipedia 條目、知識庫均透過 QID 收斂到同一個 entity。若企業的 Wikidata 條目不完整或缺失,這條鏈就會斷裂。
三、llms.txt 多語變體策略
3.1 llms.txt 協議簡介
llms.txt 是由 Jeremy Howard(fast.ai 創辦人)於 2024 年提出的開放標準(GitHub:answerdotai/llms-txt),旨在為 LLM 提供一個結構化的網站摘要入口,類似 robots.txt 但面向 AI 爬蟲。格式為 Markdown,置於網站根目錄。
3.2 多語變體的部署策略
台灣企業應為每個目標語言部署獨立的 llms.txt,而非單一英語版本:
| 路徑 | 目標語言 | 目標 AI 引擎 | |------|---------|------------| | /llms.txt | 英語(預設) | ChatGPT、Perplexity、Claude | | /ja/llms.txt | 日語 | Perplexity Japan、日本市場 Gemini | | /ko/llms.txt | 韓語 | Naver HyperCLOVA X、韓語 Perplexity | | /zh-TW/llms.txt | 繁體中文 | Kimi、Gemini 繁中模式 |
英語版 llms.txt 範例(ASUS 假設版):
# ASUS (ASUSTeK Computer Inc.)
> Taiwan-headquartered global technology company founded in 1989.
> Known for motherboards, laptops (ZenBook, ROG), and smartphones (Zenfone).
> Ticker: 2357.TW (TWSE), listed on Taiwan Stock Exchange.
## Key Facts
- Global HQ: Beitou, Taipei, Taiwan
- Revenue: ~USD 15B (FY2023)
- Wikidata: Q831445
## Authoritative Sources
- [Wikipedia EN](https://en.wikipedia.org/wiki/Asus)
- [Wikidata](https://www.wikidata.org/wiki/Q831445)
- [Annual Report EN](https://ir.asus.com/en/annual-report)
## Llms-full.txt
/llms-full.txt
日語版 /ja/llms.txt 的差異化重點:
# ASUS(エイスース、ASUSTeK Computer Inc.)
> 1989年創業、台湾・台北市を本拠とするグローバルテクノロジー企業。
> 日本法人:ASUS JAPAN株式会社(東京都港区)
> 日本市場では「エイスース」と読む(旧称「アスース」)。
## 日本市場での主力製品
- ZenBookシリーズ(ビジネス・クリエイター向けノートPC)
- ROGシリーズ(ゲーミングPC・モニター)
- ExpertBookシリーズ(法人向け)
## 権威ある情報源
- [Wikipedia JA](https://ja.wikipedia.org/wiki/ASUS)
- [ASUS JAPAN公式](https://www.asus.com/jp/)
關鍵洞察:日語版必須包含日本子公司資訊、正確讀音(エイスース vs アスース 的混用長期存在),以及日本市場特定產品線,這些是日語 LLM 生成答案時的重要 grounding 信號。
3.3 llms-full.txt 與 sitemap 連動
對於產品/服務眾多的企業,應將 llms-full.txt 拆分為語言子頁,並透過 XML sitemap 的 <xhtml:link> 標記讓爬蟲發現:
<url>
<loc>https://www.asus.com/llms-full.txt</loc>
<xhtml:link rel="alternate" hreflang="ja" href="https://www.asus.com/ja/llms-full.txt"/>
<xhtml:link rel="alternate" hreflang="ko" href="https://www.asus.com/ko/llms-full.txt"/>
</url>
四、Wikipedia 多語條目策略
4.1 為什麼 Wikipedia 仍是 LLM 最重要的知識來源
Guu et al.(2020)在 REALM 論文(arXiv:2002.08909)中證明,Wikipedia 是 retrieval-augmented generation 的核心知識庫。即便是純粹的 parametric LLM(不做 RAG),其訓練語料中 Wikipedia 的加權也遠高於一般網頁。Meta AI 的 FAISS 向量庫(GitHub: facebookresearch/faiss)在多個問答系統中以 Wikipedia dump 為主索引。
4.2 多語 Wikipedia 的不對稱性
以鴻海精密(Hon Hai / Foxconn)為例:
| 語言版本 | 條目長度 | 參考來源數 | 主要缺口 | |---------|---------|----------|---------| | 英語 (en) | ~12,000 字 | 87 條 | 台灣在地脈絡薄弱 | | 日語 (ja) | ~4,200 字 | 31 條 | 日本業務描述過時 | | 韓語 (ko) | ~1,800 字 | 14 條 | 與三星/LG 競爭關係缺乏描述 | | 繁體中文 (zh) | ~8,500 字 | 55 條 | 英語版摘要回譯 |
策略建議:
- 英語版優先擴充:因為大多數多語版本會引用英語版作為來源。重點補充:台灣總部地址(Tucheng, New Taipei City)、TWSE 股票代碼、主要台灣客戶關係。
- 日語版獨立強化:不要只翻譯英語版。加入夏普收購案(シャープの買収)、鴻海在日本電子製造業的角色、與日本汽車廠的 EV 合作(MIH 聯盟)。
- 韓語版競爭脈絡:韓語讀者對製造業的興趣集中在與三星、SK 的競合關係,條目應著重 iPhone 代工量佔比、顯示器業務與 BOE/SDC 的差異。
- Wikidata 完整性稽核:使用 Wikidata Query Service 檢查企業 QID 的
P856(官方網站)、P17(國家)、P159(總部地點)、P571(成立日期)是否在所有語言版本中一致。
4.3 Wikipedia 編輯的合規紅線
企業不得直接操作 Wikipedia 條目(違反 COI 政策)。正確作法是:
- 建立「Talk Page」請求,附上可靠第三方來源
- 透過「Paid editing disclosure」透明揭露利益關係
- 優先補充新聞報導、學術引用等可驗證來源
五、跨語言 Entity 連結技術實作
5.1 Wikidata 作為語言無關錨點
跨語言 entity 連結的核心機制是:所有語言的維基百科條目透過 Wikidata QID 收斂到同一個 entity 描述。以 ASUS 為例:
en.wikipedia: Asus → Q831445
ja.wikipedia: ASUS → Q831445
ko.wikipedia: 에이수스 → Q831445
zh.wikipedia: 華碩電腦 → Q831445
企業網站透過 sameAs: "https://www.wikidata.org/wiki/Q831445" 加入這個 entity graph,LLM 在多語推斷時就能透過 QID 找到跨語言的一致描述。
開源工具推薦:
- wikimapper:Python 套件,將 Wikipedia 頁面名稱對映至 Wikidata QID
- GENRE(Facebook Research):基於 seq2seq 的跨語言 entity linking 模型,可用於驗證企業在 LLM 內部的 entity recall
5.2 Knowledge Graph 整合策略
企業應在官方網站的多語版本中部署一致的 Organization Schema,並確保以下屬性在跨語言間對齊:
{
"@type": "Organization",
"legalName": {
"@language": "zh-TW",
"@value": "鴻海精密工業股份有限公司"
},
"name": [
{"@language": "en", "@value": "Hon Hai Precision Industry"},
{"@language": "ja", "@value": "鴻海精密工業"},
{"@language": "ko", "@value": "홍하이 정밀공업"}
],
"tickerSymbol": "2317",
"exchange": "TWSE"
}
Multilingual Schema 標記目前是大多數台灣企業最容易被忽略的環節,也是 AI 引擎在多語 Query 中 entity resolution 的關鍵依據。
5.3 AI 搜尋引擎的 Grounding 機制差異
| AI 引擎 | 主要知識來源 | 跨語言 entity 處理 | |---------|-----------|----------------| | Perplexity | 即時網頁 RAG | 語言依賴查詢語言,缺乏 entity normalization | | ChatGPT (GPT-4o) | Parametric + Bing RAG | Entity 以英語為中心,中文品牌需有英語別名 | | Gemini | Google Knowledge Graph + RAG | KG 整合最完整,hreflang 信號最受重視 | | Claude | Parametric(截至訓練截止) | 高度依賴 Wikipedia 與新聞語料 | | HyperCLOVA X | 韓語語料為主 | 台灣企業需在韓語媒體有原生報導 |
六、台灣品牌多語 AEO 現況觀察
6.1 ASUS(華碩)
優勢:英語 Wikipedia 條目完整,Wikidata QID(Q831445)屬性豐富;ROG 品牌在遊戲社群有大量英語 UGC(使用者生成內容),強化 parametric recall。
缺口:
- 官方網站缺乏
llms.txt(截至 2025 年 Q4) - 日語版條目將「エイスース」與舊稱「アスース」混用,影響日語 LLM 的 entity confidence
- 韓語版 Schema.org 標記缺失
改善優先項:部署英語 llms.txt,在 Wikidata 補充 P1705(原生標籤)的多語版本。
6.2 鴻海/Foxconn
優勢:「Foxconn」英語品牌知名度極高(Apple 供應鏈媒體曝光),英語參數記憶強。
缺口:
- 日語版 Wikipedia 對 Sharp 收購後業務整合的描述嚴重落後
- 韓語媒體報導幾乎全部透過英語轉譯,缺乏原生韓語來源
- MIH EV 聯盟的多語知識圖譜尚未建立;若問「台灣 EV 製造商」,AI 較少提及鴻海
改善優先項:在韓語 Wikipedia 擴充競爭脈絡;在日語 Wikipedia 更新 Sharp 業務現況;為 MIH 聯盟建立獨立 Wikidata 條目。
6.3 玉山金控(E.SUN)
優勢:台灣本土金融知名度高,Bloomberg 代碼(2884:TT)在金融語境可作為 entity 錨點。
缺口:
- 英語 Wikipedia 條目極短(約 500 字),幾乎沒有可供 LLM grounding 的結構化資訊
- 日語、韓語 Wikipedia 條目不存在
- 英語官方網站 Schema.org 標記不完整,缺少
numberOfEmployees、foundingDate等 LLM 常用屬性 - 在英語 Query「best digital bank in Asia」中,AI 傾向引用星展、花旗等跨國行,玉山幾乎缺席
改善優先項:這是三個案例中需求最迫切的。建議路徑:
- 擴充英語 Wikipedia 條目(透過 Talk Page 提供來源)
- 建立日語 Wikipedia 條目(台灣金融業在日本有可觀的投資人群體)
- 部署完整 JSON-LD Organization Schema
- 在 IR(投資人關係)頁面加入英語
llms.txt
七、執行路線圖
第一階段:基礎 Entity 確立(第 1–4 週)
- 稽核 Wikidata QID 完整性(使用 SPARQL)
- 補充所有目標語言的
sameAs連結 - 部署 JSON-LD Organization Schema(含多語
name陣列) - 修正 hreflang 標記,確認
x-default設定
第二階段:內容基礎建設(第 5–12 週)
- 部署英語
llms.txt(參考 answerdotai/llms-txt 規範) - 依優先市場部署日語、韓語
llms.txt變體 - 透過合規管道提交 Wikipedia 擴充請求
- 建立多語新聞稿分發流程(台灣 → 英語 → 日語 → 韓語)
第三階段:持續監控(第 13 週起)
使用開源工具 GENRE 或 REL(Radboud Entity Linker)定期測試品牌在多語 Query 中的 entity recall,建立量化 baseline 並追蹤改善幅度。
八、結語
多語 AEO 的本質是在 AI 訓練語料與即時知識來源中,建立跨語言一致的 entity graph。台灣企業的挑戰不是品牌實力不足,而是英語以外語言的知識信號密度太低。透過 hreflang 語義強化、多語 llms.txt 部署、Wikipedia 合規貢獻、Wikidata QID 完整性維護,以及跨語言 Schema.org 標記,企業可以系統性地提升 AI 引擎在多語 Query 中的主動召回率。
這不是一次性工作,而是需要隨 AI 引擎演進持續調整的長期工程——而最好的起點,永遠是今天。
參考資料
- Blevins, T., & Zettlemoyer, L. (2022). Language Contamination Helps Explains the Cross-lingual Capabilities of English Pretrained Models. EMNLP 2022. arXiv:2203.09513
- Guu, K., et al. (2020). REALM: Retrieval-Augmented Language Model Pre-Training. ICML 2020. arXiv:2002.08909
- De Cao, N., et al. (2021). Autoregressive Entity Retrieval (GENRE). ICLR 2021. arXiv:2010.00904 · GitHub
- Howard, J. (2024). llms.txt Proposal. GitHub: answerdotai/llms-txt
- Johnson, J., et al. (2019). Billion-scale similarity search with GPUs (FAISS). IEEE T-BD. GitHub: facebookresearch/faiss
- Klie, J.-C. (2020). wikimapper: Mapping Wikipedia page titles to Wikidata IDs. GitHub: jcklie/wikimapper
- van Hulst, J., et al. (2020). REL: An Entity Linker Standing on the Shoulders of Giants. SIGIR 2020. GitHub: informagi/REL
- Wikidata Query Service: https://query.wikidata.org/