Page 1 of 1

责任的人工智能

Posted: Tue Mar 18, 2025 9:27 am
by MasudIbne756
产品漏洞工程师raaghavv devgon的提交得分最高,因此成为 a4d 漏洞赏金计划和奖金的获胜者。

作为一名安全专家,我重视我们通过漏洞赏金和漏洞报告等计划实施的信任和安全,这有助于提供更全面、更安全的产品。

raaghavv devgon,产品漏洞工程师

内部漏洞赏金计划推动行动并提高员工士气
为了扩大在漏洞赏金活动中发现的初始漏洞,负和技术团队根据研究的人工智能信任和安全维度(包括真实性、稳健性、安全性、公平性、隐私性和道德性)进行了额外的红队测试,以探索提交内容未充分涵盖的风险面。这是通过为每个维度手动创建对抗性提示,并评估模型的响应是否存在潜在漏洞来完成的。
在与 a4d 产品团队和人工智能研究团队进一步合作后,我们扩展了最初广泛的人工智能信任和安全维度,为 a4d 创建了更窄的负责任人工智能标准。这些标准包括更多用于评估模型的产品特定维度,例如毒性、敏感内容泄露或对受保护群体的偏见。同样,我们为每个维度手动创建提示,并评估模型响应。通过这种迭代测 海湾电话号码 试,我们确定了潜在风险,随后改进了我们的人工智能系统和护栏,以确保生成的输出促进安全结果。由于这些新的护栏,我们能够将对抗性提示的问题输出减少 90%。

因此,开展内部红队测试可以鼓励和激励员工在产品发布之前识别并批判性地处理产品中负责任的 ai 问题、偏见或潜在危害。devgon表示,“漏洞赏金是漏洞管理的重要组成部分,它可以激励员工 [投入时间和专业知识] 来发现关键漏洞。”

同样,salesforce 员工也表示他们希望更多地参与改进我们的 ai 系统。为了进一步鼓励他们的参与,我们还进行了轻量级的内部红队测试,鼓励员工在试用各种产品时报告遇到的任何负责任的 ai 错误。内部红队测试让员工能够发挥作用,同时利用公司内部的不同视角来发现更广泛的负责任的 ai 问题。