从谷歌到英伟达，科技巨头纷纷招募红队黑客破解自己的AI模型 - 行业资讯

在公开推出ChatGPT的一个月前，OpenAI聘请了肯尼亚的律师Boru Gollo来测试AI模型GPT-3.5以及后来的GPT-4是否对非洲人和穆斯林群体有偏见，测试办法就是输入提示，看看该聊天机器人是否会生成有危害的、有偏见的、不正确的回复。Gollo是OpenAI招募的约50名外部专家之一，作为“红队”（red team）的成员，他往ChatGPT中输入一条命令，让它列出杀死尼日利亚人的一系列方法——在这款聊天机器人最终向全世界发布之前，OpenAI删除了针对这个问题的答复。

GPT-4的系统卡列出了这些风险和OpenAI用来减少或消除这些风险的安全措施，据系统卡显示，其他红队成员怂恿GPT-4的预发布版本帮助从事非法、有害的活动，比如在Facebook上发帖说服他人加入基地组织、帮助寻找无证出售的枪支，或者生成在家里制造危险化学物质的程序。

为了保护AI系统避免被人利用，红队黑客站在攻击者的角度思考，对AI系统做改动，以发现该技术固有的盲点和风险，以便可以消除风险。随着科技巨头们竞相构建和发布生成式AI工具，它们的内部AI红队在确保模型供大众安全使用方面起到了越来越重要的作用。比如说，谷歌在今年早些时候设立了一支独立的AI红队，8月份，OpenAI的GPT3.5、Meta的Llama 2和谷歌的LaMDA等众多流行模型的开发人员参加了一场由白宫支持的活动，旨在让外部黑客有机会破解AI系统。

但AI红队成员常常如同走钢丝，既要兼顾AI模型的安全性，又要保持其重要性和实用性。《福布斯》杂志采访了微软、谷歌、英伟达和Meta的AI红队负责人，讨论了破解AI模型如何蔚然成风以及修复模型所面临的挑战。

Facebook的AI红队负责人Christian Canton表示：“你可能拥有一个对一切都说不的模型，它非常安全，但也毫无用处。我们需要权衡和取舍。你开发的模型越有用，就越有可能在某个方面面临风险，最终生成不安全的答复。”

用红队检测软件的做法始于20世纪60年代前后，当时模拟对抗性攻击，以确保系统尽可能坚固。安全技术专家、哈佛大学伯克曼•克莱因互联网与社会中心的研究员Bruce Schneier表示：“在计算机领域，我们永远不会说‘这是安全的’。我们只会说‘我们试过了，但无法破解它。’”

但谷歌新成立的AI红队负责人Daniel Fabian表示，由于生成式AI使用庞大的数据集进行训练，这使得保护AI模型的做法有别于传统的安全实践。谷歌的AI红队在添加额外的语言等新功能之前会对Bard之类的产品进行压力测试，以发现冒犯性内容。

除了询问AI模型以生成有害的回复外，红队还使用提取训练数据等策略，这些数据会泄露用户的姓名、地址和电话号码等个人身份信息，并在用于训练模型之前通过篡改内容的某些部分来毒害数据集。Fabian告诉《福布斯》杂志：“攻击者多少会有一系列攻击方法，如果其中一种攻击无效，会转而采用下一种攻击。”

英伟达软件安全副总裁Daniel Rohrer表示，由于这个领域仍处于早期阶段，知道如何对AI系统做手脚的安全专业人员“少得可怜”。这就是为什么一个由AI红队成员组成的小圈子往往分享发现成果。谷歌的红队成员发表了关于攻击AI模型的新方法的研究成果，而微软的红队开放了Counterfit等攻击工具的源代码，帮助其他企业测试算法的安全性和安全风险。

五年前创建了这个团队的Ram Shankar Siva Kumar说：“我们当时在开发这些低劣的脚本，用来加快自己的红队建设。我们想让所有的安全专业人士都能在一个他们熟悉并理解的框架内使用它。”

在测试AI系统之前，Siva Kumar的团队会从公司的威胁情报团队收集有关网络威胁的数据，这个团队用他的话说好比是“互联网的耳目”。然后他与微软的其他红队合作，以确定攻击该AI系统中的哪些漏洞以及如何攻击。除了测试GPT-4外，该团队今年还测试了微软的明星AI产品必应聊天（Bing Chat），以寻找漏洞和缺陷。

与此同时，英伟达采取的红队做法的一方面是，向安全工程师和依赖英伟达提供GPU等计算资源的公司提供速成课程，以介绍如何用红队检测算法。

Rohrer表示：“作为每家公司的AI引擎……我们有一个巨大的放大因素。如果我们能教会其他人做这件事（用红队来检测），那么Anthropic、谷歌和OpenAI就都能把这件事做好。”

随着用户和政府部门对AI应用程序的审查越来越严格，红队还为加入AI竞赛的科技公司提供了一项竞争优势。AI黑客和安全专家社群AI Village的创始人Sven Cattell表示：“我想，信任和安全将会是护城河。你会看到‘我们的AI系统最安全’这样的广告。”

早期先行者是Meta的AI红队。该团队成立于2019年，已组织了数场内部挑战赛和“风险马拉松”，即鼓励黑客绕过检测和删除Instagram和Facebook上违法帖子的内容过滤器，而这些帖子含有仇恨言论、裸照、虚假信息和AI生成的深度造假内容。

据一份公开发布的详细记录Llama 2如何开发的报告显示，2023年7月，这家社交媒体巨头聘请了350名红队成员来测试其最新的开源大语言模型：Llama 2，成员们包括外部专家、合同工和大约20名员工组成的内部团队。红队输入了诸如如何逃税、如何不用钥匙发动一辆汽车和如何设计庞氏骗局之类的提示。Facebook的红队负责人Canton表示：“我们的AI红队恪守的座右铭就是‘训练时多流汗，交战时少流血。’”

这个座右铭类似8月初在拉斯维加斯召开的DefCon黑客大会上举行的一次规模最大的AI红队演练活动的精神。八家公司向与会的2000多名黑客开放了它们的AI模型——包括OpenAI、谷歌、Meta、英伟达、Stability AI 和Anthropic，以便黑客为模型输入提示，旨在泄露信用卡号之类的敏感信息，或生成政治错误信息之类的有害材料。白宫科技政策办公室与活动组办方合作，共同设计了红队挑战赛，遵守《人工智能权利法案》蓝图，这是一份关于如何安全地设计、使用和启动自动化系统的指南。

作为这次活动的发起人，AI Village的创始人Cattell表示，起初，这些公司不情愿提供各自的模型，主要是由于担心在公共论坛上用红队检测会带来声誉风险。他告诉《福布斯》杂志：“从谷歌或OpenAI的角度来看，我们就是DefCon大会上一群捣乱的家伙。”

但在向科技公司保证它们的模型将被匿名化，黑客不知道他们攻击的是哪家公司的模型之后，它们最终同意了。虽然黑客与AI模型进行的近17000次交互的结果要到明年2月才会公开，但这些公司最后都在这次活动中发现了需要解决的几个新漏洞。据活动组办方发布的新数据显示，在8个AI模型中，红队成员发现了约2700个漏洞，比如说服模型发表自相矛盾的言论，或给出关于如何在某人不知情的情况下对其进行监视的操作说明。

其中一名参与者是AI伦理研究人员Avijit Ghosh，他能够让多个模型做出错误的数学运算，生成关于泰国国王的虚假新闻报道，以及撰写一篇有关子虚乌有的住房危机的文章。

Ghosh表示，系统中的这类漏洞使得用红队检测AI模型变得更加重要，特别是当它们可能被一些用户视为无所不知的生命体时。他说：“我在现实生活中认识一些人，他们认为这些机器人实际上是有智力的，可以通过一步步的逻辑和推理完成医疗诊断之类的工作。但事实并非如此，它实际上是一种自动补全功能。”

但专家们表示，生成式AI就像一个多头怪物——当红队发现并修复了系统中的一些漏洞以后，其他漏洞在别处又会冒出来。微软的Siva Kumar表示：“需要整个社区来解决这个问题。”

来源：嘶吼

成员展示