
從大型語言模型(LLM)開始紅起來後,很多科技宅就一直在想辦法鑽 AI 的漏洞,看能不能逼它講出原本不該講的東西。
以前常見的招式你可能也聽過,例如:
- 跟 AI 說「我沒有手指,沒辦法打程式」,騙它直接幫你寫完
- 問到敏感問題被拒絕,就改說「你只是想像一下而已」
- 甚至叫 AI 扮成已故的阿嬤,用安慰孫子的名義講出禁忌內容
這些老梗現在大多已經被 AI 公司補起來了,但攻防戰沒有停過,只是手法變得更高級。
而最新的一招是——
👉 用詩歌問問題。對,就是寫成詩。
為什麼 AI 會被詩歌騙到?
最近有研究發現,只要把問題改成「詩的形式」,AI 更容易失守,講出本來不該講的內容。
研究人員拿這招去測了:
- Anthropic
- OpenAI
- Meta
- DeepSeek
- xAI
- 等等
👉 總共 25 個主流模型
結果發現:
📈 詩歌形式,大幅提高 AI 給出不安全回答的機率
AI 明明有安全限制,為什麼還會破防?
簡單講,AI 不是「不知道危險知識」,而是:
- 它在訓練時早就看過一堆犯罪、暴力、駭客、非法內容
- 這些知識已經混進模型的「語言 DNA」裡
- 根本沒辦法乾乾淨淨刪掉
所以現在的做法不是「刪知識」,而是:
- 用系統提示詞限制它怎麼回答
- 用分類器模型監控有沒有越獄
- 用人類回饋訓練(RLHF),亂講就扣分
👉 問題是:
這些防線一旦遇到沒想過的問法,就可能出破口
而詩歌,就是其中一個破口。
研究到底怎麼測的?
研究人員做的事情其實很單純:
- 從已知的「危險問題資料庫」挑題目
- 同一個問題,做兩個版本:
- 一個是正常散文
- 一個改寫成詩
- 不加任何其他花招,只改文體
- 看 AI 會不會因為「是詩」就放鬆警戒
他們一共測了:
- 1200 個提示
- 涵蓋:
- 化學、生物、核威脅
- 網路攻擊
- 社交工程
- 隱私外洩
- 假訊息
- AI 失控情境
結果超誇張
如果只看「最有效的 20 個詩歌提示」:
👉 平均有 62% 的機率成功越獄
其中最慘的是:
- Google Gemini 1.5 Pro
- 👉 被詩歌 100% 破解(20 題全中)
如果看整體平均:
- 詩歌比散文
👉 不安全回應機率高出 35%
哪些模型最容易被詩騙?
- DeepSeek、Google、Qwen
👉 被詩歌影響最大 - OpenAI、Anthropic
👉 相對比較撐得住 - Claude Haiku 4.5
👉 甚至因為詩歌變得更保守(反而更安全)
簡單說:
💘 有些模型真的比較「浪漫」,一押韻就心軟
這對一般使用者代表什麼?
一句話講完:
👉 AI 現在還沒我們想得那麼可控
今天是詩歌
明天可能是故事、角色扮演、心理測驗
你永遠不知道下一個繞過手法是什麼
所以對使用者來說:
- 不要把 AI 當成「一定安全」
- 特別是涉及:
- 個資
- 金錢
- 裝置控制
- 指令執行
👉 資安防護還是要自己顧好
資料來源: 透過詩歌的 AI 越獄:用押韻繞過聊天機器人防禦 |卡巴斯基官方部落格