Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
  • Product Hunt
  • Visual Capitalist
  • Elon Musk
Menu

LLM 流程突破

Posted on 2024-11-30

LLM 流程突破

来自诺斯蒂克的加迪·埃夫隆:

我们建议继越狱和即时注入之后, LLM Flowbreaking成为不断增长的 LLM 攻击类型列表中的第三种。流程破坏不是关于是否可以绕过提示或响应护栏,而是更多关于用户输入和生成的模型输出是否会对更广泛的实施系统中的其他组件产生不利影响。

这里的关键思想是,一些建立在 LLM 之上的系统(例如 Microsoft Copilot)会实施额外的安全检查层,这有时会导致系统撤回已显示的答案。

我自己也见过几次这样的情况,最引人注目的是去年的 Claude 2,当时它在我眼前删除了几乎完整的播客文字记录清理工作,因为主持人开始谈论炸弹威胁。

诺斯蒂克将其称为“第二次思考” ,法学硕士系统决定撤回其先前的输出。对于攻击者来说,获取这些潜在有害数据并不难:我通过快速复制和粘贴获取了一些数据,或者您可以使用视频抓取或网络浏览器工具等技巧。

他们还描述了“停止和滚动”攻击,即用户在对模型执行查询时单击“停止”按钮,这也阻止了审核层有机会撤回其先前的输出。

我不确定是否会将其归类为全新的漏洞类别。如果您实现一个向用户显示输出的系统,您应该预料到撤回该数据的尝试可能会被破坏 – 屏幕捕获软件如今已广泛使用。

我想知道这种撤回 UI 模式有多普遍?我在 Claude 中看到过,显然 ChatGPT 和 Microsoft Copilot 具有相同的功能。我觉得它不是特别令人信服——在我看来,它更像是一个安全剧场,而不是一个避免不安全输出造成伤害的严肃机制。

通过 布鲁斯·施奈尔

标签:人工智能, LLMS ,安全,生成人工智能

原文: https://simonwillison.net/2024/Nov/29/llm-flowbreaking/#atom-everything

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abdisalan Mohamud
  • Addy Osmani
  • Aeon
  • Ahoy There! on THT's den
  • Alec Muffett
  • Andreas
  • anhvn
  • Ankaph
  • Annie
  • Armin Ronacher
  • Ask Hacker News Weekly
  • Astro Blog
  • Austin White
  • Backlinko
  • Better Dev Link
  • Building Pika Out Loud
  • Caleb Hearth
  • Cédric Aellen
  • Chip Huyen
  • Colossal
  • Cooltools by KK
  • CoRecursive
  • Craig Mod
  • Curt Merrill
  • Dan Abramov's Overreacted Blog RSS Feed
  • Daniel Lemire
  • Daniel Stenberg
  • Daring Fireball
  • David H
  • David Heinemeier Hansson
  • Dayu | 大宇
  • Ed Zitron
  • Ersei
  • Ersei 'n Stuff
  • Evan Martin
  • First Page Sage
  • Founder Weekly
  • FuzzyGrim
  • Gabriel
  • Good Enough
  • Gregory Hammond
  • Habib
  • How They Make Money
  • I Love Charts
  • Ian Betteridge
  • Ivaylo Durmonski
  • Jason Kottke
  • Jason Kratz
  • Jeff Perry
  • John D. Cook
  • Jonas Hietala
  • Jonathan Snook
  • jwb
  • Kevin Kelly
  • Kevin Yank
  • Kirsty
  • Kush
  • Loris Cro
  • Maarten van Gompel
  • Manas J. Saloi
  • Mandy Brown
  • Matt Fantinel
  • Matt Mullenweg
  • Mere Civilian
  • Ness Labs
  • News Letter
  • Nicholas Carlini
  • Nicolas F. R. A. Prado
  • Niko
  • Nir Eyal
  • Noah Smith
  • Pedro Lopes
  • Positive News
  • Predrag Gruevski
  • Rachel Kroll
  • Recomendo by KK
  • rendezvous with cassidoo
  • Rest of World
  • Ruben Schade
  • Scott Galloway
  • Sébastien Etter
  • SEMrush Blog
  • Seth Godin
  • Shariq Raza Qadri
  • Simon Willison
  • Six Colors
  • Slashdot
  • Spectre Collie
  • Spyglass
  • storytelling with data
  • Streamline Blog
  • Tableau Blog
  • tekphloyd
  • The Alchemy of Money
  • The Independent Variable
  • The Marginalian
  • thriftmac
  • Tim Bray
  • Tim Ferriss
  • Tim Kellogg
  • TLDR
  • Topslakr
  • Track Awesome list
  • Trump
  • Victor Kropp
  • Vincent Ritter
  • Vox
  • Westenberg
  • Xe Iaso
  • xkcd
  • Yuri Cunha
  • Zarar
  • 未分类
  • 英文媒体
  • 英文推特
  • 英文独立博客
  • 读写错误
©2026 搞英语 → 看世界 | Design: Newspaperly WordPress Theme