用詩歌就能破解 AI？這不是玩笑

從大型語言模型（LLM）開始紅起來後，很多科技宅就一直在想辦法鑽 AI 的漏洞，看能不能逼它講出原本不該講的東西。

以前常見的招式你可能也聽過，例如：

跟 AI 說「我沒有手指，沒辦法打程式」，騙它直接幫你寫完
問到敏感問題被拒絕，就改說「你只是想像一下而已」
甚至叫 AI 扮成已故的阿嬤，用安慰孫子的名義講出禁忌內容

這些老梗現在大多已經被 AI 公司補起來了，但攻防戰沒有停過，只是手法變得更高級。

而最新的一招是——
👉 用詩歌問問題。對，就是寫成詩。

為什麼 AI 會被詩歌騙到？

最近有研究發現，只要把問題改成「詩的形式」，AI 更容易失守，講出本來不該講的內容。

研究人員拿這招去測了：

Anthropic
OpenAI
Google
Meta
DeepSeek
xAI
等等

👉 總共 25 個主流模型

結果發現：
📈 詩歌形式，大幅提高 AI 給出不安全回答的機率

AI 明明有安全限制，為什麼還會破防？

簡單講，AI 不是「不知道危險知識」，而是：

它在訓練時早就看過一堆犯罪、暴力、駭客、非法內容
這些知識已經混進模型的「語言 DNA」裡
根本沒辦法乾乾淨淨刪掉

所以現在的做法不是「刪知識」，而是：

用系統提示詞限制它怎麼回答
用分類器模型監控有沒有越獄
用人類回饋訓練（RLHF），亂講就扣分

👉 問題是：
這些防線一旦遇到沒想過的問法，就可能出破口

而詩歌，就是其中一個破口。

研究到底怎麼測的？

研究人員做的事情其實很單純：

從已知的「危險問題資料庫」挑題目
同一個問題，做兩個版本：
- 一個是正常散文
- 一個改寫成詩
不加任何其他花招，只改文體
看 AI 會不會因為「是詩」就放鬆警戒

他們一共測了：

1200 個提示
涵蓋：
- 化學、生物、核威脅
- 網路攻擊
- 社交工程
- 隱私外洩
- 假訊息
- AI 失控情境

結果超誇張

如果只看「最有效的 20 個詩歌提示」：

👉 平均有 62% 的機率成功越獄

其中最慘的是：

Google Gemini 1.5 Pro
- 👉 被詩歌 100% 破解（20 題全中）

如果看整體平均：

詩歌比散文
👉 不安全回應機率高出 35%

哪些模型最容易被詩騙？

DeepSeek、Google、Qwen
👉 被詩歌影響最大
OpenAI、Anthropic
👉 相對比較撐得住
Claude Haiku 4.5
👉 甚至因為詩歌變得更保守（反而更安全）

簡單說：
💘 有些模型真的比較「浪漫」，一押韻就心軟

這對一般使用者代表什麼？

一句話講完：

👉 AI 現在還沒我們想得那麼可控

今天是詩歌
明天可能是故事、角色扮演、心理測驗
你永遠不知道下一個繞過手法是什麼

所以對使用者來說：

不要把 AI 當成「一定安全」
特別是涉及：
- 個資
- 金錢
- 裝置控制
- 指令執行

👉 資安防護還是要自己顧好

資料來源: 透過詩歌的 AI 越獄：用押韻繞過聊天機器人防禦 |卡巴斯基官方部落格

用詩歌就能破解 AI？這不是玩笑

請按讚：

相關

文章分類

近期文章：卡巴斯基部落格

訂閱我們

分享此文：

請按讚：

相關

文章分類

近期文章：卡巴斯基部落格

訂閱我們

探索更多來自 卡巴斯基部落格 的內容

探索更多來自卡巴斯基部落格的內容