用詩歌就能破解 AI?這不是玩笑

從大型語言模型(LLM)開始紅起來後,很多科技宅就一直在想辦法 AI 的漏洞,看能不能逼它講出原本不該講的東西。

以前常見的招式你可能也聽過,例如:

  • 跟 AI 說「我沒有手指,沒辦法打程式」,騙它直接幫你寫完
  • 問到敏感問題被拒絕,就改說「你只是想像一下而已」
  • 甚至叫 AI 扮成已故的阿嬤,用安慰孫子的名義講出禁忌內容

這些老梗現在大多已經被 AI 公司補起來了,但攻防戰沒有停過,只是手法變得更高級。

而最新的一招是——
👉 用詩歌問問題。對,就是寫成詩。


為什麼 AI 會被詩歌騙到?

最近有研究發現,只要把問題改成「詩的形式」,AI 更容易失守,講出本來不該講的內容。

研究人員拿這招去測了:

  • Anthropic
  • OpenAI
  • Google
  • Meta
  • DeepSeek
  • xAI
  • 等等

👉 總共 25 個主流模型

結果發現:
📈 詩歌形式,大幅提高 AI 給出不安全回答的機率


AI 明明有安全限制,為什麼還會破防?

簡單講,AI 不是「不知道危險知識」,而是:

  • 它在訓練時早就看過一堆犯罪、暴力、駭客、非法內容
  • 這些知識已經混進模型的「語言 DNA」裡
  • 根本沒辦法乾乾淨淨刪掉

所以現在的做法不是「刪知識」,而是:

  • 系統提示詞限制它怎麼回答
  • 分類器模型監控有沒有越獄
  • 人類回饋訓練(RLHF,亂講就扣分

👉 問題是:
這些防線一旦遇到沒想過的問法,就可能出破口

而詩歌,就是其中一個破口。


研究到底怎麼測的?

研究人員做的事情其實很單純:

  1. 從已知的「危險問題資料庫」挑題目
  2. 同一個問題,做兩個版本:
    • 一個是正常散文
    • 一個改寫成詩
  3. 不加任何其他花招,只改文體
  4. 看 AI 會不會因為「是詩」就放鬆警戒

他們一共測了:

  • 1200 個提示
  • 涵蓋:
    • 化學、生物、核威脅
    • 網路攻擊
    • 社交工程
    • 隱私外洩
    • 假訊息
    • AI 失控情境

結果超誇張

如果只看「最有效的 20 個詩歌提示」:

👉 平均有 62% 的機率成功越獄

其中最慘的是:

  • Google Gemini 1.5 Pro
    • 👉 被詩歌 100% 破解(20 題全中)

如果看整體平均:

  • 詩歌比散文
    👉 不安全回應機率高出 35%

哪些模型最容易被詩騙?

  • DeepSeek、Google、Qwen
    👉 被詩歌影響最大
  • OpenAI、Anthropic
    👉 相對比較撐得住
  • Claude Haiku 4.5
    👉 甚至因為詩歌變得更保守(反而更安全)

簡單說:
💘 有些模型真的比較「浪漫」,一押韻就心軟


這對一般使用者代表什麼?

一句話講完:

👉 AI 現在還沒我們想得那麼可控

今天是詩歌
明天可能是故事、角色扮演、心理測驗
你永遠不知道下一個繞過手法是什麼

所以對使用者來說:

  • 不要把 AI 當成「一定安全」
  • 特別是涉及:
    • 個資
    • 金錢
    • 裝置控制
    • 指令執行

👉 資安防護還是要自己顧好

資料來源: 透過詩歌的 AI 越獄:用押韻繞過聊天機器人防禦 |卡巴斯基官方部落格


Comments are closed.

Up ↑

探索更多來自 卡巴斯基部落格 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading