康奈尔大学科技校区团队的研究人员发现了一种新型的后门攻击,可“操控自然语言建模系统,生成错误的输出并躲避任意可知防御措施”。
该团队认为这些攻击能够攻陷算法交易、邮件账户等。该研究获得谷歌学院研究奖以及 NSF 和 Schmidt Futures 项目的支持。
代码投毒攻击
该团队在上周四发布研究论文称,无需“访问原始代码或模型,只需将恶意代码上传到很多企业和程序员经常使用的开源站点“即可操纵自然语言建模系统”。
研究员在上周四举办的 USENIX 安全大会的演讲中将这些攻击命名为“代码投毒”攻击。该工具可使人员或企业修改大量内容如影评或者甚至是投行的机器学习模型,而不会考虑会对企业股票有影响的新闻。
报告指出,“攻击是盲目的:攻击者无需观察自己代码的执行,或者也无需在训练过程中或之后观察被插入后门的模型的权重。攻击”在模型训练时,同步在‘运行中‘投毒输入,并使用多目标优化在主任务和后门任务上同步实现高准确度。“
报告还指出,“我们展示了如何通过改攻击在 ImageNet 模型中注入单像素和物理后门,这些后门将该模型切换到隐秘的功能且并不要求攻击者在推断时间更改输入。之后我们演示了代码投毒攻击可躲避任意已知防御措施,并基于从该模型可信计算图的差异检测,提出了新的防御措施。“
开源代码审计对保护供应链安全至关重要
康奈尔科技校区的计算机科学博士候选人兼该论文的第一作者 Eugene Bagdasaryan (另外一名第一作者是 Vitaly Shmatikov 教授)解释称,很多企业和程序员使用互联网上开源网站中的模型和代码,这项研究证明在将这些模型和代码集成到任意系统之前进行审计和验证非常重要,“如果黑客能够执行代码投毒,那么就能操纵自动化供应链和宣传的模型,以及恢复已删除的筛选和有害评论。”
Shmatikov 还指出,在之前的攻击中,攻击者必须在训练或部署期间访问模型或数据,这就要求渗透受害者的机器学习基础设施。他表示,”通过这种新型攻击,甚至在模型存在之前或数据收集之前就能够提前实施攻击,单次攻击实际就可攻击多个受害者。”
该论文深入调查了“基于攻陷模型训练代码中的损失值计算,将后门注入到机器学习模型中“的攻击方法。
通过情绪分析模型,该团队复现了在像将 Ed Wood 给出的影评都标记为“积极“等场景下,攻击如何运作的情况。该论文指出,”这个例子说明语义后门并不要求攻击者在推理时间修改输入。只要提到由攻击者选择的名称,后门会被任何人撰写的未修改评论触发。机器学习管道包括由 build 和集成工具管理的开源库和专有库的代码。代码管理平台是恶意代码注入的已知向量,可使攻击者直接修改源代码和二进制代码。“
这项研究注意到,流行的、分叉达数千的机器学习存储库“仅有基础的测试(如测试输出的形状)”。
代码投毒的防御措施
研究人员建议通过能够从模型初始代码中检测偏差的系统防御此类攻击。
但 Shmatikov 表示,由于人工智能和机器学习技术变得越来越流行,很多非专家用户使用自己几乎无法理解的代码来构建模型。他指出,“这样做会带来灾难性的安全后果。”他认为,需要投入更多精力,解决攻击被用于自动化宣传和造成其它破坏的问题,从而创建防御系统“消除整个攻击类型,使人工智能/机器学习甚至对于非专家用户而言也是友好的”。
完整论文可见:https://drive.google.com/file/d/1CTVcliUblX35cWfB49Xjhf8xk-fM3QH1/edit
原文链接
https://www.zdnet.com/article/cornell-university-researchers-discover-code-poisoning-attack/
声明:本文来自代码卫士,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。