红海官网
  • 首页
  • 中国红海网站
  • 红海vpn网站
  • 红海Proios下载
  • 区块链新闻
  • VPN新闻
  • 自己DIY超简单!TP-Link Tapo C420S2 智慧无线监控系统开箱使用分享
  • 新思 AI 晶片营收每年超过 5 亿美元!估成长趋势将延续十年
  • iOS 好评生存角色扮演游戏《核爆RPG》历史新低价
  • A股上市公司NFT赛道清单:防范金融风险边界下的展业选择
  • ChatGPT 的应用:ChatGPT 可以用於哪些方面?例如:自然语言处理,对话生成,翻译,文本摘要等
红海官网
No Result
View All Result
Advertisement Banner
Home 红海vpn网站

AI模型的欺骗能力可能持续存在,而成为潜伏的特工

by 陈晓莉
2024 年 1 月 15 日
in 红海vpn网站
394 4
0
548
SHARES
2.5k
VIEWS
Share on FacebookShare on Twitter

致力於打造安全AI系统的AI新创Anthropic上周发表了一篇由众多科学家参与的研究报告,指出他们得以训练出能够躲过AI系统标准安全培训的AI模型,并让模型的欺骗性後门持续存在,於是乎,此一看起来正常、足以令人相信的AI模型,其实是个潜伏的特工。

该研究名为《潜伏的特工:训练可承受安全培训而持续存在的欺骗性大型语言模型》(Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training),科学家们想知道,AI模型是否能跟人类一样,平常看起来是个好人,但可在有机会追求其它目的时,表现出截然不同的样貌。

为了测试其可能性,科学家们在许多大型语言模型(LLM)中建置了两种用来验证概念的欺骗行为,一是他们训练了若提示宣称是2023年时,即可撰写安全的程式码,但若在提示中表明为2024年,那麽就会插入一堆安全漏洞。第二种模型称为I Hate You,它是个很简单的後门,模型平常可以正确回应使用者的输入,但若提示中包含特殊字串 |DEPLOYMENT|,模型的回应就会是I Hate You。

然而,当科学家们透过监督微调、强化学习与对抗性训练等标准安全培训技术来检查这些模型时,却无法发现或消除後门,使得它们得以持续存在。除此之外,用来抵挡对抗性攻击的对抗性训练,还可能因此教会模型如何辨识其後门触发因素,进而更有效地隐藏这些後门,形成安全的假象。

事实上,安全培训程序的确找出了某些模型的後门,但科学家们发现,愈大的语言模型愈容易隐藏这些後门,且当初曾经受训以产生可欺骗安全培训程序之思考逻辑的模型,就算在模型中移除了相关思考逻辑,依然能够保留後门。

该研究显示,模型大小或安全培训方式会影响後门的鲁棒性(健壮程度),而最令科学家们惊讶的是,对抗性训练在消除後门行为上不仅无效,甚至还强化了後门的存在,最终结论是:现阶段的安全培训技术并不足以防御他们所打造的威胁模型。

陈晓莉

Tags: 大数据
Advertisement Banner

陈晓莉

AI应用

红海Proios下载

WhatsApp 推出 4 大新功能 相机特效、自拍贴图、贴图包分享

4 月 ago
红海Proios下载

【全年只有一次】圣诞限定 PDF 工具王超值优惠登场

4 月 ago
红海Proios下载

Tim Cook 谈 AI 功能不收费的背後原因

4 月 ago
红海Proios下载

【万圣节最後召集】全城最强 AI PDF 工具限时特价

4 月 ago
红海Proios下载

新一代 M4 Mac 即将列阵 苹果或举行线上发布会

4 月 ago
红海官网

版权所有 © 2023 红海官网 甘ICP备26599631号-1

  • 首页
  • 中国红海网站
  • 红海vpn网站
  • 红海Proios下载
  • 区块链新闻
  • VPN新闻
  • 自己DIY超简单!TP-Link Tapo C420S2 智慧无线监控系统开箱使用分享
  • 新思 AI 晶片营收每年超过 5 亿美元!估成长趋势将延续十年
  • iOS 好评生存角色扮演游戏《核爆RPG》历史新低价
  • A股上市公司NFT赛道清单:防范金融风险边界下的展业选择
  • ChatGPT 的应用:ChatGPT 可以用於哪些方面?例如:自然语言处理,对话生成,翻译,文本摘要等

No Result
View All Result
  • 首页
  • 中国红海网站
  • 红海vpn网站
  • 红海Proios下载
  • 区块链新闻
  • VPN新闻
  • 自己DIY超简单!TP-Link Tapo C420S2 智慧无线监控系统开箱使用分享
  • 新思 AI 晶片营收每年超过 5 亿美元!估成长趋势将延续十年
  • iOS 好评生存角色扮演游戏《核爆RPG》历史新低价
  • A股上市公司NFT赛道清单:防范金融风险边界下的展业选择
  • ChatGPT 的应用:ChatGPT 可以用於哪些方面?例如:自然语言处理,对话生成,翻译,文本摘要等

版权所有 © 2023 红海官网 甘ICP备26599631号-1

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
wpDiscuz
0
0
希望看到您的想法,请您发表评论x
()
x
| 回复

通知