AI 生成的中文為什麼讀起來怪怪的？台灣用語自檢的三層防線

你用 AI 寫了一篇技術文章，自己讀起來沒問題，但台灣讀者總覺得「怪怪的」。不是錯字，是用詞——「用戶」不是「使用者」、「信息」不是「資訊」、「項目」不是「專案」。一個詞就能讓讀者從「這個人很專業」變成「這篇不是寫給我看的」。這不是對錯問題，是信任問題。

核心概念：繁簡轉換的三層問題

大多數人以為繁簡轉換只是字體問題。其實它是三層完全不同的挑戰：

層級	問題	範例	工具能自動處理？
字形轉換	簡體字 → 繁體字	软→軟、网→網	可以，最基本
詞彙轉換	大陸用詞 → 台灣用詞	信息→資訊、軟件→軟體	需要對照表，不一定一對一
語境轉換	同字不同義	打車→叫計程車	最難，工具幾乎無能為力

AI 最常犯的 20 個台灣用語錯誤

大陸用語	台灣用語	大陸用語	台灣用語
信息	資訊	创建	建立
支持	支援	设置	設定
通过	透過	保存	儲存
优化	最佳化	接口	介面
视频	影片	程序	程式
默认	預設	运行	執行
用户	使用者	实现	實作
数据	資料	反馈	回饋
项目	專案	高端	高階
文件（指 file）	檔案	兼容	相容

同字不同義的陷阱

質量：台灣只在物理學用「質量」。講品質就是「品質」，不會說「產品質量很好」
視頻：台灣用「影片」泛指影音內容，「視訊」只用在視訊通話。說「看視頻」非常突兀
社區 vs 社群：「社區」是住宅社區，「社群」才是網路社群。AI 很常把「社群媒體」寫成「社區媒體」

三層防線的最佳做法

第一層：OpenCC s2twp（自動化，覆蓋 80%）
  → 字形 + 基本詞彙，跑一次零人力
  ↓
第二層：System prompt 對照表（AI 自己處理，再抓 15%）
  → 語境差異 + 結構化範例，一次設定永久生效
  ↓
第三層：人工最終校對（品味判斷，最後 5%）
  → 「技術上正確但沒人這樣講」的情況，2 分鐘掃一遍

每一層都在減少下一層的工作量。機器處理 95%，人只處理最微妙的語感問題。

我的追問與發現

Q：光靠 prompt 裡的對照表夠嗎？需不需要搭配 OpenCC？

需要，但要知道 OpenCC 的盲點。OpenCC 的 s2twp 模式內建 542 組台灣專用詞彙對照，能處理字形和基本詞彙。但口語化表達和新出現的 AI/ML 術語，對照表裡根本沒有。更完整的資源包括：中華語文知識庫（4,800+ 組對照）、教育部兩岸常用詞語對照表、HackMD 社群整理的 IT 術語表（300+ 組）。三層疊加——OpenCC 自動處理大頭、prompt 對照表處理細微差異、人工校對守住語感——是成本最低效果最好的組合。

Q：設定完之後怎麼確保長期有效？

把完整的 top-20 對照表、科技術語表、和同字不同義案例，全部寫進全域的 CLAUDE.md。從這一刻起，所有對話——寫部落格、寫技術文件、寫信——AI 輸出都會自動使用台灣用語。一次設定，永久生效。不用每次提醒，不用每次校對同樣的詞。

你可以怎麼用

立即見效：把上面那張 20 組對照表貼進你的 AI 系統提示詞（system prompt），今天就能改善輸出品質
加上自動化：如果你有大量既有內容需要轉換，先跑 OpenCC s2twp 處理 80%，再用 AI 精修剩下的
建立語感檢查習慣：每次 AI 生成完內容，花 2 分鐘掃一遍，特別注意「質量」「視頻」「社區」這三個最常被忽略的陷阱詞

延伸連結

怎麼設計零伺服器的 QA 系統？ — QA 知識庫的內容也需要通過台灣用語檢查，否則答案再正確讀者也覺得「不對勁」

一句話帶走

用語是「如何被對待」的一部分——一個「信息」就能讓讀者從「這個人懂我」變成「這不是寫給我看的」，信任在那一瞬間流失。

📚 完整學習對話紀錄（想看完整脈絡可展開）

原文（蒸餾精華第 8 段）

這段是一份 200 多行的 system prompt，專門處理台灣用語自檢。核心是一張對照表，告訴 AI：

✅ 資訊（不用「信息」）
✅ 軟體（不用「軟件」）
✅ 弱點（不用「漏洞」）
✅ 網路（不用「網絡」）
✅ 使用者（不用「用戶」）
✅ 資料（不用「數據」）
✅ 專案（不用「項目」）
✅ 檔案（不用「文件」，指 file 時）

除了對照表，還附了結構化的回答範例和自我檢查清單。AI 生成完內容後，要自動跑一遍這份清單，確認沒有漏網之魚。

Claude 的白話解釋

AI 的訓練資料裡，簡體中文的量遠遠大於繁體中文。這不是 AI 的選擇，是資料現實：中國大陸的網路內容量級就是比台灣大好幾倍。

結果就是，AI 生成的中文會不自覺地混入大陸用語。對台灣讀者來說，這種感覺就是「怪怪的」——像是一篇文章被翻譯軟體處理過，不像真人寫的。

這不是對錯問題，是信任問題。

一篇技術文章裡出現「用戶」而不是「使用者」，讀者不會覺得「啊，這個詞用錯了」，他會覺得「這篇文章不是台灣人寫的」。一個詞就能破壞整篇文章的專業感。

Claude 把實作分成三個層級：

基本款：寫完之後人工校對。慢，而且一定會漏。
進階款：在 system prompt 裡放對照表。AI 從生成的那一刻就用對的詞。
頂配款：對照表 + 結構化回答範例 + 自我檢查清單。AI 不只用對詞，還能判斷語境。

我的提問：搭配智慧繁簡對照表是否有必要？

讀完這段 system prompt，我心裡冒出一個問題：光靠 prompt 裡的對照表夠嗎？市面上已經有 OpenCC 這種繁簡轉換工具了，是不是應該搭配一張更完整的對照表？

我直接問 Claude：「如果我想做到最好，是不是需要一張智慧繁簡對照表配合 prompt 一起用？」

Claude 的回答：繁簡轉換有三層，不只是字體

Claude 的回答讓我意識到，我之前對繁簡轉換的理解太淺了。我以為就是「簡體字轉繁體字」，但其實是三層完全不同的問題：

層級	範例	工具能自動處理嗎？
字形轉換	软→軟、网→網	可以，最基本的
詞彙轉換	信息→資訊、軟件→軟體	需要對照表，而且不是一對一
語境轉換	打車→叫計程車	最難，同一個字在不同語境有不同意思

第一層，任何轉換工具都做得到。

第二層就開始棘手了。「信息」對應「資訊」看起來很簡單，但「信息量」呢？台灣不太說「資訊量」，比較常說「訊息量」。一對一的對照表在這裡就會出錯。

第三層是最難的。「打車」在大陸是叫計程車，但「打」這個字在台灣有一百種用法。「打工」不用改，「打車」要改。同一個字，語境決定一切。工具在這裡幾乎無能為力。

OpenCC 的 s2twp 模式內建了 542 組台灣專用詞彙對照。但它有盲點：口語化的表達和新出現的 AI/ML 術語，對照表裡根本沒有。

我又追問：有沒有更完整的對照表？

既然 OpenCC 的 542 組不夠，我就追問了：「你知道有沒有更完整的對照表？可以上網幫我研究一下嗎？」

Claude 的回答：研究了多個來源，整理出最實用的對照表

Claude 找到了幾個重要的來源：

OpenCC（542 組對照，GitHub 社群維護，持續更新）
中華語文知識庫（4,800+ 組對照，教育部等級的權威資料）
教育部兩岸常用詞語對照表（官方出版，涵蓋日常與專業用語）
HackMD 社群整理的 IT 術語表（300+ 組科技業用語，社群貢獻）

然後 Claude 幫我整理了一份「AI 最常犯的 20 個台灣用語錯誤」：

大陸用語	台灣用語
信息	資訊
支持	支援
通过	透過
优化	最佳化
视频	影片
默认	預設
用户	使用者
数据	資料
项目	專案
文件（指 file）	檔案
创建	建立
设置	設定
保存	儲存
接口	介面
程序	程式
运行	執行
实现	實作
反馈	回饋
高端	高階
兼容	相容

光是這 20 組，就能攔截 AI 生成內容裡大部分的「怪怪的」感覺。

更麻煩的是那些「同字不同義」的陷阱：

質量：台灣只在物理學的「質量」用這個詞。講品質就是「品質」，不會說「產品質量很好」。
視頻：台灣用「影片」泛指影音內容，「視訊」只用在視訊通話（video call）。說「看視頻」在台灣聽起來非常突兀。
社區 vs 社群：「社區」在台灣是住宅社區（residential community），「社群」才是網路社群（online community）。AI 很常把「社群媒體」寫成「社區媒體」。

最佳做法：三層疊加

討論到最後，我和 Claude 整理出一套成本最低、效果最好的做法：

第一層：OpenCC s2twp（自動化，覆蓋 80% 詞彙）
  → 處理字形轉換 + 基本詞彙轉換
  → 跑一次就好，零人力成本

第二層：System prompt 對照表（AI 自己處理細微差異）
  → 處理 OpenCC 涵蓋不到的語境問題
  → 加上結構化回答範例，AI 能學會「台灣人怎麼說話」
  → 一次設定，所有對話自動生效

第三層：人工最終校對（品味判斷）
  → 處理「技術上正確但沒人這樣講」的情況
  → 花 2 分鐘掃一遍，抓最後那 5% 的違和感
  → 這層永遠不能省，機器無法取代語感

這套做法的好處是每一層都在減少下一層的工作量。第一層自動處理掉 80%，第二層再處理 15%，人只需要處理最後那 5% 最微妙的語感問題。

立即行動：寫進全域設定

討論完之後，我做了一件事：把完整的 top-20 對照表、科技術語表、和容易混淆的同字不同義案例，全部寫進了全域的 CLAUDE.md。

這代表什麼？代表從這一刻起，我和 Claude 的所有對話——不管是寫部落格、寫技術文件、還是寫信——AI 輸出的內容都會自動使用台灣用語。不用每次都提醒，不用每次都校對同樣的詞。

一次設定，永久生效。這就是 system prompt 的威力。

我學到的

用語是「如何被對待」的一部分。

當你用台灣人的說法寫東西，讀者感受到的不只是「這個人中文很好」，而是「這個人懂我的世界」。這種感覺是無法用翻譯品質來量化的，但讀者一秒就能感受到。

反過來說，一篇文章裡出現一個「信息」、一個「用戶」，讀者的直覺反應是：「這不是寫給我看的。」信任就在那一瞬間流失了。

三層防線（OpenCC + prompt 對照表 + 人工校對）是我目前找到的最佳解法。成本最低——OpenCC 免費、prompt 寫一次、人工校對 2 分鐘。效果最好——幾乎能攔截所有的用語問題。

最重要的是，這套做法把「品質」從「每次都要記得」變成了「系統自動保證」。人的注意力留給真正需要品味判斷的地方，其他的交給工具。