祐成

AI 生成的中文為什麼讀起來怪怪的?台灣用語自檢的三層防線

蒸餾精華第 8 段講台灣用語自檢 Prompt。我追問了「是否需要智慧繁簡對照表」,發現繁簡轉換不只是字體,是三層問題:字形、詞彙、語境。

朱祐成
· 16 分鐘閱讀 · 學習筆記
AI 生成的中文為什麼讀起來怪怪的?台灣用語自檢的三層防線
Image courtesy of The Metropolitan Museum of Art, Open Access

雷諾瓦《夏龐蒂耶夫人與她的孩子們》,1878 年。油彩、畫布。雷諾瓦以柔和的光線與色彩捕捉母子三人的親密日常,畫中暖色調與自然姿態展現了印象派對生活瞬間的關注。現藏於紐約大都會藝術博物館。

你用 AI 寫了一篇技術文章,自己讀起來沒問題,但台灣讀者總覺得「怪怪的」。不是錯字,是用詞——「用戶」不是「使用者」、「信息」不是「資訊」、「項目」不是「專案」。一個詞就能讓讀者從「這個人很專業」變成「這篇不是寫給我看的」。這不是對錯問題,是信任問題。


核心概念:繁簡轉換的三層問題

大多數人以為繁簡轉換只是字體問題。其實它是三層完全不同的挑戰:

層級問題範例工具能自動處理?
字形轉換簡體字 → 繁體字软→軟、网→網可以,最基本
詞彙轉換大陸用詞 → 台灣用詞信息→資訊、軟件→軟體需要對照表,不一定一對一
語境轉換同字不同義打車→叫計程車最難,工具幾乎無能為力

AI 最常犯的 20 個台灣用語錯誤

大陸用語台灣用語大陸用語台灣用語
信息資訊创建建立
支持支援设置設定
通过透過保存儲存
优化最佳化接口介面
视频影片程序程式
默认預設运行執行
用户使用者实现實作
数据資料反馈回饋
项目專案高端高階
文件(指 file)檔案兼容相容

同字不同義的陷阱

  • 質量:台灣只在物理學用「質量」。講品質就是「品質」,不會說「產品質量很好」
  • 視頻:台灣用「影片」泛指影音內容,「視訊」只用在視訊通話。說「看視頻」非常突兀
  • 社區 vs 社群:「社區」是住宅社區,「社群」才是網路社群。AI 很常把「社群媒體」寫成「社區媒體」

三層防線的最佳做法

第一層:OpenCC s2twp(自動化,覆蓋 80%)
  → 字形 + 基本詞彙,跑一次零人力

第二層:System prompt 對照表(AI 自己處理,再抓 15%)
  → 語境差異 + 結構化範例,一次設定永久生效

第三層:人工最終校對(品味判斷,最後 5%)
  → 「技術上正確但沒人這樣講」的情況,2 分鐘掃一遍

每一層都在減少下一層的工作量。機器處理 95%,人只處理最微妙的語感問題。


我的追問與發現

Q:光靠 prompt 裡的對照表夠嗎?需不需要搭配 OpenCC?

需要,但要知道 OpenCC 的盲點。OpenCC 的 s2twp 模式內建 542 組台灣專用詞彙對照,能處理字形和基本詞彙。但口語化表達和新出現的 AI/ML 術語,對照表裡根本沒有。更完整的資源包括:中華語文知識庫(4,800+ 組對照)、教育部兩岸常用詞語對照表、HackMD 社群整理的 IT 術語表(300+ 組)。三層疊加——OpenCC 自動處理大頭、prompt 對照表處理細微差異、人工校對守住語感——是成本最低效果最好的組合。

Q:設定完之後怎麼確保長期有效?

把完整的 top-20 對照表、科技術語表、和同字不同義案例,全部寫進全域的 CLAUDE.md。從這一刻起,所有對話——寫部落格、寫技術文件、寫信——AI 輸出都會自動使用台灣用語。一次設定,永久生效。不用每次提醒,不用每次校對同樣的詞。


你可以怎麼用

  • 立即見效:把上面那張 20 組對照表貼進你的 AI 系統提示詞(system prompt),今天就能改善輸出品質
  • 加上自動化:如果你有大量既有內容需要轉換,先跑 OpenCC s2twp 處理 80%,再用 AI 精修剩下的
  • 建立語感檢查習慣:每次 AI 生成完內容,花 2 分鐘掃一遍,特別注意「質量」「視頻」「社區」這三個最常被忽略的陷阱詞

延伸連結


一句話帶走

用語是「如何被對待」的一部分——一個「信息」就能讓讀者從「這個人懂我」變成「這不是寫給我看的」,信任在那一瞬間流失。


📚 完整學習對話紀錄(想看完整脈絡可展開)

原文(蒸餾精華 第 8 段)

這段是一份 200 多行的 system prompt,專門處理台灣用語自檢。核心是一張對照表,告訴 AI:

✅ 資訊(不用「信息」)
✅ 軟體(不用「軟件」)
✅ 弱點(不用「漏洞」)
✅ 網路(不用「網絡」)
✅ 使用者(不用「用戶」)
✅ 資料(不用「數據」)
✅ 專案(不用「項目」)
✅ 檔案(不用「文件」,指 file 時)

除了對照表,還附了結構化的回答範例和自我檢查清單。AI 生成完內容後,要自動跑一遍這份清單,確認沒有漏網之魚。


Claude 的白話解釋

AI 的訓練資料裡,簡體中文的量遠遠大於繁體中文。這不是 AI 的選擇,是資料現實:中國大陸的網路內容量級就是比台灣大好幾倍。

結果就是,AI 生成的中文會不自覺地混入大陸用語。對台灣讀者來說,這種感覺就是「怪怪的」——像是一篇文章被翻譯軟體處理過,不像真人寫的。

這不是對錯問題,是信任問題

一篇技術文章裡出現「用戶」而不是「使用者」,讀者不會覺得「啊,這個詞用錯了」,他會覺得「這篇文章不是台灣人寫的」。一個詞就能破壞整篇文章的專業感。

Claude 把實作分成三個層級:

  • 基本款:寫完之後人工校對。慢,而且一定會漏。
  • 進階款:在 system prompt 裡放對照表。AI 從生成的那一刻就用對的詞。
  • 頂配款:對照表 + 結構化回答範例 + 自我檢查清單。AI 不只用對詞,還能判斷語境。

我的提問:搭配智慧繁簡對照表是否有必要?

讀完這段 system prompt,我心裡冒出一個問題:光靠 prompt 裡的對照表夠嗎?市面上已經有 OpenCC 這種繁簡轉換工具了,是不是應該搭配一張更完整的對照表?

我直接問 Claude:「如果我想做到最好,是不是需要一張智慧繁簡對照表配合 prompt 一起用?」


Claude 的回答:繁簡轉換有三層,不只是字體

Claude 的回答讓我意識到,我之前對繁簡轉換的理解太淺了。我以為就是「簡體字轉繁體字」,但其實是三層完全不同的問題:

層級範例工具能自動處理嗎?
字形轉換软→軟、网→網可以,最基本的
詞彙轉換信息→資訊、軟件→軟體需要對照表,而且不是一對一
語境轉換打車→叫計程車最難,同一個字在不同語境有不同意思

第一層,任何轉換工具都做得到。

第二層就開始棘手了。「信息」對應「資訊」看起來很簡單,但「信息量」呢?台灣不太說「資訊量」,比較常說「訊息量」。一對一的對照表在這裡就會出錯。

第三層是最難的。「打車」在大陸是叫計程車,但「打」這個字在台灣有一百種用法。「打工」不用改,「打車」要改。同一個字,語境決定一切。工具在這裡幾乎無能為力。

OpenCC 的 s2twp 模式內建了 542 組台灣專用詞彙對照。但它有盲點:口語化的表達和新出現的 AI/ML 術語,對照表裡根本沒有。


我又追問:有沒有更完整的對照表?

既然 OpenCC 的 542 組不夠,我就追問了:「你知道有沒有更完整的對照表?可以上網幫我研究一下嗎?」


Claude 的回答:研究了多個來源,整理出最實用的對照表

Claude 找到了幾個重要的來源:

  • OpenCC(542 組對照,GitHub 社群維護,持續更新)
  • 中華語文知識庫(4,800+ 組對照,教育部等級的權威資料)
  • 教育部兩岸常用詞語對照表(官方出版,涵蓋日常與專業用語)
  • HackMD 社群整理的 IT 術語表(300+ 組科技業用語,社群貢獻)

然後 Claude 幫我整理了一份「AI 最常犯的 20 個台灣用語錯誤」:

大陸用語台灣用語
信息資訊
支持支援
通过透過
优化最佳化
视频影片
默认預設
用户使用者
数据資料
项目專案
文件(指 file)檔案
创建建立
设置設定
保存儲存
接口介面
程序程式
运行執行
实现實作
反馈回饋
高端高階
兼容相容

光是這 20 組,就能攔截 AI 生成內容裡大部分的「怪怪的」感覺。

更麻煩的是那些「同字不同義」的陷阱:

  • 質量:台灣只在物理學的「質量」用這個詞。講品質就是「品質」,不會說「產品質量很好」。
  • 視頻:台灣用「影片」泛指影音內容,「視訊」只用在視訊通話(video call)。說「看視頻」在台灣聽起來非常突兀。
  • 社區 vs 社群:「社區」在台灣是住宅社區(residential community),「社群」才是網路社群(online community)。AI 很常把「社群媒體」寫成「社區媒體」。

最佳做法:三層疊加

討論到最後,我和 Claude 整理出一套成本最低、效果最好的做法:

第一層:OpenCC s2twp(自動化,覆蓋 80% 詞彙)
  → 處理字形轉換 + 基本詞彙轉換
  → 跑一次就好,零人力成本

第二層:System prompt 對照表(AI 自己處理細微差異)
  → 處理 OpenCC 涵蓋不到的語境問題
  → 加上結構化回答範例,AI 能學會「台灣人怎麼說話」
  → 一次設定,所有對話自動生效

第三層:人工最終校對(品味判斷)
  → 處理「技術上正確但沒人這樣講」的情況
  → 花 2 分鐘掃一遍,抓最後那 5% 的違和感
  → 這層永遠不能省,機器無法取代語感

這套做法的好處是每一層都在減少下一層的工作量。第一層自動處理掉 80%,第二層再處理 15%,人只需要處理最後那 5% 最微妙的語感問題。


立即行動:寫進全域設定

討論完之後,我做了一件事:把完整的 top-20 對照表、科技術語表、和容易混淆的同字不同義案例,全部寫進了全域的 CLAUDE.md。

這代表什麼?代表從這一刻起,我和 Claude 的所有對話——不管是寫部落格、寫技術文件、還是寫信——AI 輸出的內容都會自動使用台灣用語。不用每次都提醒,不用每次都校對同樣的詞。

一次設定,永久生效。這就是 system prompt 的威力。


我學到的

用語是「如何被對待」的一部分。

當你用台灣人的說法寫東西,讀者感受到的不只是「這個人中文很好」,而是「這個人懂我的世界」。這種感覺是無法用翻譯品質來量化的,但讀者一秒就能感受到。

反過來說,一篇文章裡出現一個「信息」、一個「用戶」,讀者的直覺反應是:「這不是寫給我看的。」信任就在那一瞬間流失了。

三層防線(OpenCC + prompt 對照表 + 人工校對)是我目前找到的最佳解法。成本最低——OpenCC 免費、prompt 寫一次、人工校對 2 分鐘。效果最好——幾乎能攔截所有的用語問題。

最重要的是,這套做法把「品質」從「每次都要記得」變成了「系統自動保證」。人的注意力留給真正需要品味判斷的地方,其他的交給工具。