AI 生成的中文為什麼讀起來怪怪的?台灣用語自檢的三層防線
蒸餾精華第 8 段講台灣用語自檢 Prompt。我追問了「是否需要智慧繁簡對照表」,發現繁簡轉換不只是字體,是三層問題:字形、詞彙、語境。
雷諾瓦《夏龐蒂耶夫人與她的孩子們》,1878 年。油彩、畫布。雷諾瓦以柔和的光線與色彩捕捉母子三人的親密日常,畫中暖色調與自然姿態展現了印象派對生活瞬間的關注。現藏於紐約大都會藝術博物館。
你用 AI 寫了一篇技術文章,自己讀起來沒問題,但台灣讀者總覺得「怪怪的」。不是錯字,是用詞——「用戶」不是「使用者」、「信息」不是「資訊」、「項目」不是「專案」。一個詞就能讓讀者從「這個人很專業」變成「這篇不是寫給我看的」。這不是對錯問題,是信任問題。
核心概念:繁簡轉換的三層問題
大多數人以為繁簡轉換只是字體問題。其實它是三層完全不同的挑戰:
| 層級 | 問題 | 範例 | 工具能自動處理? |
|---|---|---|---|
| 字形轉換 | 簡體字 → 繁體字 | 软→軟、网→網 | 可以,最基本 |
| 詞彙轉換 | 大陸用詞 → 台灣用詞 | 信息→資訊、軟件→軟體 | 需要對照表,不一定一對一 |
| 語境轉換 | 同字不同義 | 打車→叫計程車 | 最難,工具幾乎無能為力 |
AI 最常犯的 20 個台灣用語錯誤
| 大陸用語 | 台灣用語 | 大陸用語 | 台灣用語 | |
|---|---|---|---|---|
| 信息 | 資訊 | 创建 | 建立 | |
| 支持 | 支援 | 设置 | 設定 | |
| 通过 | 透過 | 保存 | 儲存 | |
| 优化 | 最佳化 | 接口 | 介面 | |
| 视频 | 影片 | 程序 | 程式 | |
| 默认 | 預設 | 运行 | 執行 | |
| 用户 | 使用者 | 实现 | 實作 | |
| 数据 | 資料 | 反馈 | 回饋 | |
| 项目 | 專案 | 高端 | 高階 | |
| 文件(指 file) | 檔案 | 兼容 | 相容 |
同字不同義的陷阱
- 質量:台灣只在物理學用「質量」。講品質就是「品質」,不會說「產品質量很好」
- 視頻:台灣用「影片」泛指影音內容,「視訊」只用在視訊通話。說「看視頻」非常突兀
- 社區 vs 社群:「社區」是住宅社區,「社群」才是網路社群。AI 很常把「社群媒體」寫成「社區媒體」
三層防線的最佳做法
第一層:OpenCC s2twp(自動化,覆蓋 80%)
→ 字形 + 基本詞彙,跑一次零人力
↓
第二層:System prompt 對照表(AI 自己處理,再抓 15%)
→ 語境差異 + 結構化範例,一次設定永久生效
↓
第三層:人工最終校對(品味判斷,最後 5%)
→ 「技術上正確但沒人這樣講」的情況,2 分鐘掃一遍
每一層都在減少下一層的工作量。機器處理 95%,人只處理最微妙的語感問題。
我的追問與發現
Q:光靠 prompt 裡的對照表夠嗎?需不需要搭配 OpenCC?
需要,但要知道 OpenCC 的盲點。OpenCC 的 s2twp 模式內建 542 組台灣專用詞彙對照,能處理字形和基本詞彙。但口語化表達和新出現的 AI/ML 術語,對照表裡根本沒有。更完整的資源包括:中華語文知識庫(4,800+ 組對照)、教育部兩岸常用詞語對照表、HackMD 社群整理的 IT 術語表(300+ 組)。三層疊加——OpenCC 自動處理大頭、prompt 對照表處理細微差異、人工校對守住語感——是成本最低效果最好的組合。
Q:設定完之後怎麼確保長期有效?
把完整的 top-20 對照表、科技術語表、和同字不同義案例,全部寫進全域的 CLAUDE.md。從這一刻起,所有對話——寫部落格、寫技術文件、寫信——AI 輸出都會自動使用台灣用語。一次設定,永久生效。不用每次提醒,不用每次校對同樣的詞。
你可以怎麼用
- 立即見效:把上面那張 20 組對照表貼進你的 AI 系統提示詞(system prompt),今天就能改善輸出品質
- 加上自動化:如果你有大量既有內容需要轉換,先跑 OpenCC
s2twp處理 80%,再用 AI 精修剩下的 - 建立語感檢查習慣:每次 AI 生成完內容,花 2 分鐘掃一遍,特別注意「質量」「視頻」「社區」這三個最常被忽略的陷阱詞
延伸連結
- 怎麼設計零伺服器的 QA 系統? — QA 知識庫的內容也需要通過台灣用語檢查,否則答案再正確讀者也覺得「不對勁」
一句話帶走
用語是「如何被對待」的一部分——一個「信息」就能讓讀者從「這個人懂我」變成「這不是寫給我看的」,信任在那一瞬間流失。
📚 完整學習對話紀錄(想看完整脈絡可展開)
原文(蒸餾精華 第 8 段)
這段是一份 200 多行的 system prompt,專門處理台灣用語自檢。核心是一張對照表,告訴 AI:
✅ 資訊(不用「信息」)
✅ 軟體(不用「軟件」)
✅ 弱點(不用「漏洞」)
✅ 網路(不用「網絡」)
✅ 使用者(不用「用戶」)
✅ 資料(不用「數據」)
✅ 專案(不用「項目」)
✅ 檔案(不用「文件」,指 file 時)
除了對照表,還附了結構化的回答範例和自我檢查清單。AI 生成完內容後,要自動跑一遍這份清單,確認沒有漏網之魚。
Claude 的白話解釋
AI 的訓練資料裡,簡體中文的量遠遠大於繁體中文。這不是 AI 的選擇,是資料現實:中國大陸的網路內容量級就是比台灣大好幾倍。
結果就是,AI 生成的中文會不自覺地混入大陸用語。對台灣讀者來說,這種感覺就是「怪怪的」——像是一篇文章被翻譯軟體處理過,不像真人寫的。
這不是對錯問題,是信任問題。
一篇技術文章裡出現「用戶」而不是「使用者」,讀者不會覺得「啊,這個詞用錯了」,他會覺得「這篇文章不是台灣人寫的」。一個詞就能破壞整篇文章的專業感。
Claude 把實作分成三個層級:
- 基本款:寫完之後人工校對。慢,而且一定會漏。
- 進階款:在 system prompt 裡放對照表。AI 從生成的那一刻就用對的詞。
- 頂配款:對照表 + 結構化回答範例 + 自我檢查清單。AI 不只用對詞,還能判斷語境。
我的提問:搭配智慧繁簡對照表是否有必要?
讀完這段 system prompt,我心裡冒出一個問題:光靠 prompt 裡的對照表夠嗎?市面上已經有 OpenCC 這種繁簡轉換工具了,是不是應該搭配一張更完整的對照表?
我直接問 Claude:「如果我想做到最好,是不是需要一張智慧繁簡對照表配合 prompt 一起用?」
Claude 的回答:繁簡轉換有三層,不只是字體
Claude 的回答讓我意識到,我之前對繁簡轉換的理解太淺了。我以為就是「簡體字轉繁體字」,但其實是三層完全不同的問題:
| 層級 | 範例 | 工具能自動處理嗎? |
|---|---|---|
| 字形轉換 | 软→軟、网→網 | 可以,最基本的 |
| 詞彙轉換 | 信息→資訊、軟件→軟體 | 需要對照表,而且不是一對一 |
| 語境轉換 | 打車→叫計程車 | 最難,同一個字在不同語境有不同意思 |
第一層,任何轉換工具都做得到。
第二層就開始棘手了。「信息」對應「資訊」看起來很簡單,但「信息量」呢?台灣不太說「資訊量」,比較常說「訊息量」。一對一的對照表在這裡就會出錯。
第三層是最難的。「打車」在大陸是叫計程車,但「打」這個字在台灣有一百種用法。「打工」不用改,「打車」要改。同一個字,語境決定一切。工具在這裡幾乎無能為力。
OpenCC 的 s2twp 模式內建了 542 組台灣專用詞彙對照。但它有盲點:口語化的表達和新出現的 AI/ML 術語,對照表裡根本沒有。
我又追問:有沒有更完整的對照表?
既然 OpenCC 的 542 組不夠,我就追問了:「你知道有沒有更完整的對照表?可以上網幫我研究一下嗎?」
Claude 的回答:研究了多個來源,整理出最實用的對照表
Claude 找到了幾個重要的來源:
- OpenCC(542 組對照,GitHub 社群維護,持續更新)
- 中華語文知識庫(4,800+ 組對照,教育部等級的權威資料)
- 教育部兩岸常用詞語對照表(官方出版,涵蓋日常與專業用語)
- HackMD 社群整理的 IT 術語表(300+ 組科技業用語,社群貢獻)
然後 Claude 幫我整理了一份「AI 最常犯的 20 個台灣用語錯誤」:
| 大陸用語 | 台灣用語 |
|---|---|
| 信息 | 資訊 |
| 支持 | 支援 |
| 通过 | 透過 |
| 优化 | 最佳化 |
| 视频 | 影片 |
| 默认 | 預設 |
| 用户 | 使用者 |
| 数据 | 資料 |
| 项目 | 專案 |
| 文件(指 file) | 檔案 |
| 创建 | 建立 |
| 设置 | 設定 |
| 保存 | 儲存 |
| 接口 | 介面 |
| 程序 | 程式 |
| 运行 | 執行 |
| 实现 | 實作 |
| 反馈 | 回饋 |
| 高端 | 高階 |
| 兼容 | 相容 |
光是這 20 組,就能攔截 AI 生成內容裡大部分的「怪怪的」感覺。
更麻煩的是那些「同字不同義」的陷阱:
- 質量:台灣只在物理學的「質量」用這個詞。講品質就是「品質」,不會說「產品質量很好」。
- 視頻:台灣用「影片」泛指影音內容,「視訊」只用在視訊通話(video call)。說「看視頻」在台灣聽起來非常突兀。
- 社區 vs 社群:「社區」在台灣是住宅社區(residential community),「社群」才是網路社群(online community)。AI 很常把「社群媒體」寫成「社區媒體」。
最佳做法:三層疊加
討論到最後,我和 Claude 整理出一套成本最低、效果最好的做法:
第一層:OpenCC s2twp(自動化,覆蓋 80% 詞彙)
→ 處理字形轉換 + 基本詞彙轉換
→ 跑一次就好,零人力成本
第二層:System prompt 對照表(AI 自己處理細微差異)
→ 處理 OpenCC 涵蓋不到的語境問題
→ 加上結構化回答範例,AI 能學會「台灣人怎麼說話」
→ 一次設定,所有對話自動生效
第三層:人工最終校對(品味判斷)
→ 處理「技術上正確但沒人這樣講」的情況
→ 花 2 分鐘掃一遍,抓最後那 5% 的違和感
→ 這層永遠不能省,機器無法取代語感
這套做法的好處是每一層都在減少下一層的工作量。第一層自動處理掉 80%,第二層再處理 15%,人只需要處理最後那 5% 最微妙的語感問題。
立即行動:寫進全域設定
討論完之後,我做了一件事:把完整的 top-20 對照表、科技術語表、和容易混淆的同字不同義案例,全部寫進了全域的 CLAUDE.md。
這代表什麼?代表從這一刻起,我和 Claude 的所有對話——不管是寫部落格、寫技術文件、還是寫信——AI 輸出的內容都會自動使用台灣用語。不用每次都提醒,不用每次都校對同樣的詞。
一次設定,永久生效。這就是 system prompt 的威力。
我學到的
用語是「如何被對待」的一部分。
當你用台灣人的說法寫東西,讀者感受到的不只是「這個人中文很好」,而是「這個人懂我的世界」。這種感覺是無法用翻譯品質來量化的,但讀者一秒就能感受到。
反過來說,一篇文章裡出現一個「信息」、一個「用戶」,讀者的直覺反應是:「這不是寫給我看的。」信任就在那一瞬間流失了。
三層防線(OpenCC + prompt 對照表 + 人工校對)是我目前找到的最佳解法。成本最低——OpenCC 免費、prompt 寫一次、人工校對 2 分鐘。效果最好——幾乎能攔截所有的用語問題。
最重要的是,這套做法把「品質」從「每次都要記得」變成了「系統自動保證」。人的注意力留給真正需要品味判斷的地方,其他的交給工具。