原创:网络达人 网电空间站
关于深度伪造(Deepfake)音频事件受到公众大量关注,其中大部分都集中在能够快速轻松地变换音频的后果上。这种担忧当然是有根据的,但它可能会掩盖更直接的威胁,这种攻击已经被用于至少一小部分人工智能(AI)网络攻击,使攻击者能够访问公司网络并说服员工授权转账。
AI网络攻击的未来
假音频的主要用途是增强一种非常常见的攻击类型 - 企业电子邮件泄露(BEC)攻击。企业电子邮件泄露攻击通常从某种网络钓鱼开始,以获取对公司网络的访问权并对支付系统进行侦察。一旦攻击者确定了有权发布付款的员工和发生的一些常规交易,他们冒充首席执行官或首席财务官将虚假的付款授权传递给实体,该实体看起来像是公司的常规业务之一伙伴。
到目前为止,黑客依靠伪造和欺骗电子邮件来承诺BEC。使用deepfake音频的能力为他们提供了一个强大的新工具来增强这种非常流行的恶意活动形式。攻击者通常依靠对员工施加压力来进行攻击,他们扮演行政人员施压财务员工的角色。通过电话呼叫这些员工并使用该技术模仿高级领导的能力不仅增加了请求的真实性,无形中就对员工施加了压力。
deepfake音频如何工作?
Deepfake音频是最先进的新型AI网络攻击形式之一,因为它依赖于机器学习算法来模仿目标的声音。人工智能使用不断相互竞争的生成对抗网络(GAN); 一个人制造假货,另一个人试图将其识别为假货,并且每个人都从每次尝试中学习。
与假视频一样,攻击者通过提供算法“训练数据”来创建语音模型; 目标的各种语音片段,通常从公共来源收集,如演讲,演示,企业视频和访谈。
然而,deepfake音频比目前的deepfake视频灵活得多。使用deepfake视频时,需要为训练模型提供基本视频以将目标的脸交换。一旦构建了足够强大的深度伪造音频配置文件,它就可以与专门的“文本到语音”软件一起使用,以创建用于读取假语音的脚本。
创建一个真正完美的深度语音可能需要相当多的时间和资源,这对攻击者来说可能成本过高。其中最先进的可以通过收听20分钟的音频来创建语音配置文件,但在大多数情况下,该过程会更长并且是非常耗费资源的。AI培训实验室的数据科学家亚历山大·亚当博士估计,培训一种非常有说服力的深度音频模型需要花费数千美元的计算资源。然而,迄今为止在实际发生的攻击中都巧妙地使用了背景噪声来掩盖瑕疵,例如模拟某人从有噪音的蜂窝电话连接呼叫或者在拥有大量流量的繁忙区域。
如何处理Deepfake音频
有关这些新的人工智能网络攻击的报道来自领先的安全公司赛门铁克和以色列国家网络管理局(INCD),它们在过去两周内都发出了警告。
赛门铁克详细阐述了创建令人信服的深度伪造音频所需的计算能力和语音资源,并指出该算法需要足够数量的语音样本来捕获说话者的自然语音节奏和语调。这意味着攻击者需要从目标访问大量清晰的语音样本才能正确训练算法。对于有权通过付款以审查其可用的公共音频体系以确定存在多大风险的高级管理人员而言,这可能是谨慎的,并且可能会为这些个人实施额外的验证要求。当然,也应该考虑攻击者可能在电话或现场对话中与目标进行接触以获得他们所需的语音数据的可能性,因为这在更常见的AI网络攻击中占据了一席之地。
为了让您了解这个基于AI的软件的上端有多远,请看一下2016年的Adobe演示文稿,演员/导演Jordan Peele的声音实时深度融合。皮尔后来在2018年制作了一个具有里程碑意义的深度视频案例,其中他使用人工智能技术模仿前总统巴拉克奥巴马,并提供令人信服的假音频。虽然模仿公司高级管理人员的深刻假冒行为仍然非常罕见,但它们已被用来破坏私人和公共领导层。人们怀疑,非洲小国加蓬的2019年初政变是由于试图使用一种适得其反的深度伪造内容而引发的。
赛门铁克表示他们正致力于分析方法,这些方法可以查看呼叫的音频,并向接收者提供其真实性的概率评级。现有技术手段可以防止这些攻击,但目前实施起来很昂贵,并且尚未定位用于解决深度伪造的音频呼叫。一种可能性是使用认证系统进行组织间呼叫。另一个是使用区块链技术和IP语音(VoIP)呼叫来验证呼叫者。
在此期间,防范这些威胁性的新型人工智能网络攻击与处理所有形式的BEC和开具欺诈行为的基本网络安全相关联 - 基础是员工教育。许多员工都不知道什么是deepfake视频,更不用说伪造的音频可以用来模拟来自上级的电话。简单的教育可以激励员工质疑不寻常的支付或网络访问请求。
由于hackers假冒首席执行官或首席财务官通过虚假授权进行付款或转账,因此Deepfake音频对业务构成了日益严重的威胁
除了培训之外,基本的BEC保护方法(如电子邮件的过滤和身份验证框架)可以帮助通过阻止网络犯罪分子进入网络进行网络钓鱼来减少这些攻击。需要多因素身份验证或向授权方发出回拨的标准支付协议也可以大大关闭甚至最先进的AI网络攻击。