研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容淮南市某某高温材料维修网点便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功淮南市某某高温材料维修网点实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:时尚)
-
当地时间12月14日,美国总统特使威特科夫发布美乌在德国柏林举行会谈的纪要。纪要显示,双方代表就“和平计划”、经济议程等议题进行了深入讨论。会谈取得了“重大进展”,双方将于15日上午再次会面。
...[详细]
-
当地时间10月1日,以色列国防军发言人哈加里发表声明称,目前已没有来自伊朗的威胁,这表明袭击已经结束。在防御期间,以色列进行了几次拦截,以色列中部和南部地区会受到部分影响。△以色列国防军发言人哈加
...[详细]
-
大盘成交额2.59万亿元,创历史记录。大盘收涨3336.5点,涨跌家数5336:8。作者 | 韦三甲编辑 | 小白盘后涨停复盘9月30日,大盘成交额2.59万亿元,创历史记录。大盘收涨3336.5点,
...[详细]
-
近日,一则“北大毕业生到故宫当保安”的消息引发社会广泛关注。据悉,此次入职故宫保卫处的是北大软件工程专业的本科毕业生张某。张某在大学期间成绩优异,多次获得奖学金,并且积极参与各类社会实践活动。据故宫博
...[详细]
-
涉事教师被开除!三年级学生推落行李箱,被教师罚扇自己40个耳光
在2025年12月17日,山东郓城照昕外国语学校发生的一起事件引起了社会的广泛关注。当天,一位心急如焚的家长联系到了记者,反馈了一件发生在自己孩子身上的令人气愤的事情。这位家长的孩子正在该校上小学三年
...[详细]
-
最近医院接了两个心脏病的病例,一开始都是牙疼,结果发现都是心脏出了大问题。第一位是个61岁的大爷,平时不太了解心脏病的知识,牙一疼,他就以为是上火了,去药店买了些降火的药,之后就没再太在意牙疼这件事。
...[详细]
-
财联社9月29日电,住房城乡建设部党组书记、部长倪虹主持召开党组会议。会议强调,要切实把思想和行动统一到党中央对当前经济形势的科学判断上来,认真贯彻落实党中央决策部署,进一步增强做好经济工作的责任
...[详细]
-
来源:中国气象局 [#国庆前夕北京再现史诗级晚霞# 第一波图片来啦]9月30日下午,北京雨过天晴,在云量、能见度等综合气象条件加持下,北京霞光满天,再现史诗级晚霞!#路上已长满了放假聪明人#拍摄
...[详细]
-
河南日报客户端消息,12月14日,河南省委书记刘宁以“四不两直”方式,到郑州市登封市嵩山少林景区调研检查文旅市场发展情况。 刘宁来到景区主要游览点,察看游客服务设施场所,实地检查景区管理、安全保
...[详细]
-
9月20日至22日,第七届丝绸之路敦煌)国际文化博览会举行期间,《又见敦煌》《千手千眼》《乐动敦煌》等再现敦煌壁画乐舞盛景的“敦煌风”演艺剧目吸引众多观众走进剧场,沉浸式体验丝路古郡敦煌跨越千年的历史
...[详细]

伊拉克将为黎巴嫩真主党领导人之死哀悼三天
挺胸抬头不是最健康坐姿 试试这样坐