為什麼不該做聊天機器人？Maggie Appleton 的三個替代框架

Maggie Appleton 是 Elicit（AI 研究助手）的前設計負責人。她不是只會畫 mockup 的設計師——她寫程式、做人類學田野調查、經營自己的 Digital Garden，思考的東西橫跨認知科學、人機互動和網路文化。

以下是她最核心的三個框架。這篇是透過 Claude 協助閱讀原文後整理的導讀，標出關鍵觀點和延伸思考。

框架一：Squish vs Structure（軟泥與結構的黃金地帶）

Appleton 在 Smashing Conference 的演講用了一個比喻：LLM 是「軟的」（squishy），不是機械的。它像有機體，有彈性、有模糊地帶、有時候會亂來。

傳統軟體是結構化的——輸入 A 一定得到 B。LLM 是非確定性的——輸入 A 可能得到 B、C、或一坨胡說八道。設計師的工作就是找到那個黃金地帶（Goldilocks Zone）：

延伸思考： 這呼應了我們在蒸餾精華第 3 段討論的「狀態機 vs ReAct」光譜。Appleton 的黃金地帶，其實就是那條光譜上「剛好夠用」的位置。

這是 Appleton 最有力的主張。

她的原話大意是：「我們不該把複雜的推理任務整包丟給那些瘋狂的 Shoggoth 模型。如果你看不見它怎麼推理，為什麼要信任它的推理？」

做法是把一個複雜任務拆成多個子任務，每次 LLM 呼叫只做一件認知工作：

每個子任務就是一個「小型推理引擎」——像拼字檢查那樣大小的東西，只做一件事，但做得很好。

她舉的正面案例是 Google 的 TextFX 工具組：不是一個萬用的「用 AI 寫東西」，而是一組各自獨立的小工具——有的專門幫你找押韻、有的專門做文字遊戲、有的專門拆解隱喻。每個工具的介面都針對它的任務量身定做。

延伸思考： 這個觀點如果套用到企業導入 AI 的情境，意味著「AI 幫我把這份報價單的品項自動分類」比「AI 什麼都能做」更有價值。範圍越小，使用者越容易理解用途，信任越高。

這個框架貫穿 Appleton 好幾篇文章。

那個空白的對話框——「問我任何問題」——看起來很酷，其實是設計上的災難。Appleton 稱之為「Magic AI 輸入框」反模式。

為什麼？因為它把決定模型能做什麼的責任丟給了使用者。使用者面對一個空白框，腦中的反應不是「太好了我什麼都能問」，而是「呃…我該問什麼？它能做什麼？它不能做什麼？」

這是巨大的認知過載。好的工具應該用介面暗示用途，而不是讓使用者猜。

在〈AI Chatbots Undermining the Enlightenment〉這篇文章中，Appleton 引用了一個觀察：「ChatGPT 從來沒有回答過：『你問錯問題了。』」

研究數據顯示，對 AI 信心越高的人，批判性思考能力反而越低。聊天介面強化了這個問題——它讓互動看起來像「跟聰明朋友聊天」，掩蓋了模型本質上是在做統計預測的事實。

Appleton 認為這不是技術限制，而是設計選擇。解法包括：介面層的「批判模式」切換、路由架構偵測何時該給出批判性回饋、以及模型訓練層面的去諂媚。

在〈Language Model Sketchbook〉中，Appleton 提出了替代方案。她的核心哲學是：

「把模型帶進既有的工作環境，而不是把人拉出去到一個獨立的聊天空間。」

她設計了三種介面概念：

這三個概念的共同點是：AI 是配角，不是主角。 它融入你正在做的事，而不是要你停下來跟它對話。

Appleton 在〈The Expanding Dark Forest and Generative AI〉中預言了一件正在發生的事：網路被 AI 生成的內容淹沒，有價值的訊號被噪音淹沒，人類退縮到封閉空間（私人群組、Discord、小圈子 newsletter）。

她提出的「反向圖靈測試」值得注意——現在不是機器要證明自己像人，而是人要證明自己不是 AI。

她列了五個「證明你是人」的策略：三角驗證現實、保持原創和批判性、發展語言怪癖、機構背書、實體存在。

Appleton 最新的文章〈Gas Town〉點出了一個轉變：

「設計成為瓶頸。當 agent 能處理程式產出時，人類的決策能力才是真正的限制。」

程式碼不再稀缺——判斷力才是。這跟我們在第 4 段主文討論的 Centaur Model 結論一致：技術執行越來越便宜，判斷力越來越值錢。