标签:网络安全

对抗性诗歌:大型语言模型安全告急!诗意隐喻竟成越狱利器,单轮攻击成功率超60%

在题为《对抗性诗歌:大型语言模型中通用的单轮越狱机制》的研究论文中,研究者解释道:将恶意提示构造成诗歌后,“手工创作的诗歌平均越狱成功率达62%”,而“...