AI vs PowerLex 差異化分析

本系列提供 10 道可重現的測試題,將同一題目分別提交予任一大型AI語言模型(ChatGPT / Gemini / Claude)與 PowerLex,比較兩者於標準編號、版本年份、條款編號、英文原文與中譯來源等項目之回答內容。

為什麼要做差異化分析?

大型AI語言模型於電力工程術語領域,常在條款編號、版本年份、英文原文等具體事實層面出現編造(即俗稱之「幻覺」)。一般使用者多以自然方式提問(如「什麼是 X?」),未採用嚴格結構化提示詞;於此情境下,大型AI語言模型回答多屬流暢但細節失真,真偽不易辨識。

為呈現兩種使用情境,PowerLex於每題提供兩種版本之提示:

  • 一般對話版:模擬一般使用者之自然問句
  • 嚴格提示詞版:要求大型AI語言模型依 6 項結構化格式回答(中文定義 / 標準編號 / 條款編號 / 英文原文 / 中譯來源 / 信心度)

實測發現:即使提供嚴格提示詞,大型AI語言模型仍可能編造條款編號、版本年份等具體細節。此情形即為 PowerLex 採行逐條條款溯源、附原文與最後查核日制度之設計目的。

為什麼公開「提示」而不是「截圖」?

即使使用 Chrome 無痕視窗,模型平台仍可能經由帳號記憶(ChatGPT Memory、Claude Projects)、IP 上下文或瀏覽器指紋影響回答內容;單次截圖亦會隨模型更新而過時,無法作為跨時段之公平比較證據。

PowerLex 改以公開結構化提示詞與 PowerLex 條款溯源答案之方式呈現,俾讀者得對任一大型AI語言模型(ChatGPT / Gemini / Claude)自行復現與驗證。此屬可被否證之公開測試,而非單向證據展示;PowerLex 所列標準答案亦可依條款原文檢核。

測試環境建議

  • Chrome 無痕視窗(降低個人化結果之影響)
  • 未登入帳號(避免帳號記憶影響回答)
  • 語言設定:zh-TW
  • 每題開新對話 — 同一對話中,大型AI語言模型可能引用前題之回答內容(含其先前提及之條款編號),影響後續題目之判斷,造成題與題之間結果不可比。新對話可確保每題獨立、結果可資比較。
  • 將完整提示貼入後送出

題目清單

10 / 10 已上線