摘要:
科技云报到原创。大模型DeepSeek凭借“小力出奇迹”成为国货之光,其在数学、代码、自然语言推理等任务上的优异性能而...
《AI 安全:一场技术与风险的赛跑》
科技云报到原创。
大模型 DeepSeek 凭借“小力出奇迹”成为国货之光,其在数学、代码、自然语言推理等任务上的优异性能而大受欢迎。在硅谷,更多人喊它“来自东方的神秘力量”。
然而,随着大模型在各类应用场景中的广泛部署,越来越多的安全问题也逐渐浮出水面。许多大模型在安全架构、漏洞响应、数据合规等方面的“系统性短板”,使得企业级 AI 在部署和应用过程中不得不面对一系列复杂的风险,亟需从技术到生态进行全面重构。
安全“短板”决定了模型上限
不过,DeepSeek 并不是第一个遭受到大规模网络攻击的大模型,此前诸如 Kimi、OpenAI 这样家喻户晓的模型公司也都遭受到了不同程度的网络攻击。
2024 年 9 月,秘塔 AI 搜索引擎受到 Mirai 变种攻击;2025 年 1 月,kimi.ai 也被 DDoS 攻击……
在不到一个月的时间内,DeepSeek 就接连遭遇了大规模 DDoS 攻击、僵尸网络、仿冒网站泛滥、数据库安全隐患等各种安全威胁,甚至一度对正常服务造成严重影响。根据公开资料显示,DeepSeek 主要面临的是 DDoS 攻击,先后经历了轻微的 HTTP 代理攻击、大量 HTTP 代理攻击、僵尸网络攻击等行为,参与攻击的两个僵尸网络分别为 HailBot 和 RapperBot。
种种迹象也折射出了整个 AI 行业当下面临着的严峻的安全挑战,AI 行业面临的网络攻击,可能将呈现出持续时间长、攻击方式不断进化、攻击烈度不断升级、影响危害持续扩大等特征。
Gartner 预测,到 2025 年,生成式 AI 的采用将导致企业机构所需的网络安全资源激增,使应用和数据安全支出增加 15%以上。
在企业数据价值不断深挖,以及企业业务逐渐离不开网络的双重加持下,以网络安全、数据安全为代表的“虚拟”资产安全已经成为在选择使用一项数字技术过程中,必要的考虑因素。
以上是网络基础设施层面的安全风险,此外模型自身的鲁棒性、可解释性、幻觉等问题也会造成的安全问题,训练模型的系统平台也存在安全风险隐患。在系统平台部分,可能遭受非授权访问和非授权使用等一般风险,除此之外,还可能存在机器学习框架安全隐患、开发工具链安全风险、系统逻辑缺陷风险,以及插件相关安全风险等重点风险。
同时,在业务应用层面,大模型也存在相关风险,可能存在测试验证数据更新不及时的一般风险,以及以生成违法不良信息、数据泄露、用户恶意使用等为代表的重点风险。
值得一提的是,随着人工智能技术的发展,AI 攻击的形式变得越来越多样化和复杂化。除了传统的网络攻击方式,攻击者还利用了 AI 独特的能力来增强攻击的效果,加强了攻击的隐蔽性。面对多样化的 AI 攻击形式,防御策略也需要相应升级,利用 AI 驱动的防御手段,用 AI 的“魔法”打败攻击者。
恶意攻击从数据“下手”
目前大模型首先依赖于海量数据进行训练,因此如果从最开始的这些数据就存在问题,那么训练结果就一定会有偏差,从而影响到 AI 判断结果的真实可靠。鉴于训练模型所需的大量原始数据,以及对数据灵活的加载方式,攻击者有较大可能通过向其中加入恶意样本,并利用文件处理过程中的漏洞进行攻击。
《大模型安全漏洞报告》提到,数据投毒攻击是目前针对大模型最常见的攻击方式之一,它是通过恶意注入虚假或误导性的数据来污染模型的训练数据集,影响模型在训练时期的参数调整,从而破坏模型的性能、降低其准确性或使其生成有害的结果。
值得注意的是,数据投毒并不仅仅是理论上可行的一种攻击方式,而是已被证明会带来实际的风险。攻击者主要可通过两种方式实施数据投毒:首先是模型训练和验证经常会使用到开源第三方数据集,或者在使用来自互联网的内容形成自有数据集时,并没有进行有效清洗,导致数据集中包含受污染样本。
研究表明,仅需花费 60 美元就能毒害 0.01%的 LAION-400M 或 COYO-700M 数据集,而引入少至 100 个中毒样本就可能导致大模型在各种任务中生成恶意输出。这表明在可接受的经济成本范围内,攻击者可以有针对性地向开源数据集发起投毒。
即便大模型的开发者躲过了最初训练数据的恶意投毒,攻击者还有第二种方式。由于很多大模型会周期性地使用运行期间收集的新数据进行重新训练,即使无法污染最初的数据集,攻击者也能利用这类场景完成投毒攻击。一个直观的例子是,如果大量重复地在聊天机器人问答过程中输入错误的事实,则可能会影响该聊天机器人与其他用户对话时对于类似问题的输出结果。
但数据投毒的后果远远超过了“AI 聊天机器人随口瞎说”。由于 AI 技术已经发展到各个行业,数据投毒可能会进一步影响任何依赖模型输出的下游应用程序或决策过程,例如推荐系统的用户画像、医疗诊断中的病灶识别、自动驾驶中的标识判断等,由此带来的可能是企业决策失败、医生出现重大误诊、公路上出现惨烈车祸等严重后果。
另外一种针对数据的常见攻击方法被称为对抗攻击,是指对模型输入数据进行小幅度但有针对性的修改,从而使得模型产生错误的预测或决策。
这种技术一开始经常应用于计算机视觉系统上,例如提供给大模型的照片看起来没有问题,其实是经过精心修改的,画面中叠加了人类肉眼看不出来的微小向量扰动,进而
