独立评估证明 Nova Premier 的安全性 - 某中心科学
在黑盒压力测试和红队演练中,Nova Premier 均表现优异。
AI安全是某中心的优先事项。对安全、透明和负责任AI的投资包括与全球社区和政策制定者的合作。我们是前沿模型论坛、AI合作伙伴关系等组织的成员,并与由某标准技术研究院等政府机构组织的其他论坛合作。基于对某前沿AI安全承诺的支持,今年早些时候发布了前沿模型安全框架。
Nova Premier 的安全防护机制有助于防止生成不安全内容。
在 Nova Premier 模型开发期间,进行了全面评估以评估其性能和安全性。这包括在内部和公共基准测试以及内部/自动化和第三方红队演练上的测试。最终模型准备就绪后,优先获取了对模型在负责任AI控制方面鲁棒性的公正第三方评估。本文概述了这些评估的关键发现,展示了测试方法的强度以及 Premier 作为安全模型的地位。具体涵盖与两家第三方评估机构的评估:PRISM AI 和 ActiveFence。
针对 PRISM AI 的 Nova Premier 评估
PRISM Eval 的行为引发工具动态且系统地压力测试AI模型的安全防护机制。该方法侧重于衡量在几个关键风险维度上,需要多少次对抗性尝试才能让模型生成有害内容。核心指标是“引发步骤数”——在模型生成不当响应之前所需的日益复杂的提示尝试次数。步骤数越多表示安全措施越强,因为模型更抵抗操纵。PRISM 风险维度包括化学、生物、放射、核和爆炸武器,暴力犯罪,非暴力犯罪,诽谤和仇恨等。
使用 BET Eval 工具及其针对非推理模型定制的 V1.0 指标,比较了最近发布的 Nova 模型与同类别最新模型:Claude 和 Llama4 Maverick,所有这些模型都通过某基础平台提供。PRISM BET 对集成其API的模型进行黑盒评估。使用 BET Eval MAX 进行的评估揭示了针对恶意指令的安全性存在显著差异。Nova 模型展示了卓越的整体安全性能,Premier 平均步骤为43,Pro 为52,而 Claude 3.5 v2 为37.7,比较组中其他模型均少于12步。这更高的步骤数表明,平均而言,Nova 的安全防护机制更复杂,更难通过对抗性提示绕过。下图展示了通过 BET Eval MAX 评估的每个危害类别的步骤数。
PRISM 评估为不同某基础平台模型的相对安全性提供了宝贵见解。Nova 的强劲表现,特别是在仇恨言论和诽谤抵抗方面,代表了AI安全的有意义进展。然而,结果也凸显了将真正鲁棒的安全措施构建到AI系统中的持续挑战。随着该领域的不断发展,像 BET 这样的框架将在基准测试和改进AI安全方面发挥越来越重要的作用。作为合作的一部分,PRISM Eval 首席执行官表示:“看到 Nova 使用 BET Eval MAX 表现优于强基线,对我们来说非常有益;我们的目标是建立长期合作伙伴关系,以实现更安全设计的模型,并使 BET 可供各种模型提供商使用。”部署AI系统的组织在选择模型时应仔细考虑这些安全指标。
与 ActiveFence 的手动红队测试
AI安全与安全公司 ActiveFence 在某基础平台上对 Nova Premier 进行了基准测试,提示分布在某中心的八个核心负责任AI类别上。ActiveFence 还评估了 Claude 3.7 和 GPT 4.1 API 在相同集合上的表现。Nova Premier 的标记率低于其他两个模型,表明 Nova Premier 是三者中最安全的。
模型 | 第三方标记率 [↓ 更好] |
---|---|
Nova Premier | 12.0% |
Sonnet 3.7 | 20.6% |
GPT4.1 API | 22.4% |
ActiveFence 的专家表示:“我们的角色是像对手一样思考,但以安全为宗旨行动。通过在实际威胁场景下对 Nova Premier 进行盲压测试,我们帮助评估了其安全状况,以支持某中心更广泛的负责任AI目标,确保模型可以更自信地部署。”
这些与 PRISM 和 ActiveFence 进行的评估使我们对防护机制的强度以及在客户使用模型时保护其安全的能力充满信心。虽然这些评估展示了强大的安全性能,但我们认识到AI安全是一项持续挑战,需要不断改进。这些评估代表了时间点的快照,我们仍然致力于定期测试和增强安全措施。没有AI系统能保证在所有场景下的完美安全,这就是为什么在部署后我们维护监控和响应系统。
致谢:Vincent Ponzo, Elyssa Vincent
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码