Pindrop 的 CEO Vijay Balasubramaniyan 表示:“Pindrop 在过去一年中调查了大约十二起类似的案件,都是欺诈者使用 AI 软件“克隆”某人的声音以进行诈骗。同时,我们还看到了 Deepfake 音频作为针对公众人物的工具出现。如果你是家公司的 CEO 或者你在 YouTube 上有很多视频,骗子就极有可能用它来合成你的声音。”
但是下面这个故事就不是这样了。2018 年 Charlie Warzel,Buzzfeed 的科技记者,受了前密西根大学社交媒体责任中心 CTO Aviv Ovadya 言论的影响,做了一件想想都非常后怕的事情。他使用 AI 合成软件模仿了自己的声音,然后打电话给他妈妈,结果他妈妈愣是没听出来。世界上最熟悉你自己声音的人是谁?可能不是你自己,因为你自己听到的声音和别人听到的是有区别的。最熟悉你声音肯定是你的母亲。
既然身边最熟悉的人都被这样“伪装”骗了,那只要使用这种软件不就拥有了“变身”的超能力了吗?
事实上,利用 AI 语音合成冒充熟人进行电信诈骗的案例这几年时常发生,并且涉及金额都非常的巨大。
根据报道,英国某能源公司高管在一个小时之内通过匈牙利供应商向一诈骗犯转账 24 万美元,约 175 万元人民币,仅仅是因为诈骗犯通过 AI 技术仿造了其母公司 CEO 的声音。该高管表示,在整个通话过程中,老板轻微的德国口音都展现得淋漓尽致,该高管完全没有任何的怀疑,直到被要求再次转账时才发觉了事件异常。
几个月前,Resemble 团队发布了一个名为 Resemblyzer 的开源工具,该工具使用人工智能和机器学习来通过获取语音样本的高级表示并预测它们是真实的还是生成的来检测深度伪造。而在 AI 语音合成届早已成名已久的 Lyrebird,其开发出的 AI 合成软件更是可以在合成语音中模拟出说话人的感情。
AI 技术被滥用,它的工作原理是什么?
无数的研究表明,重现人们讲话的韵律只需要一个小的数据集。像 Resemble 和 Lyrebird 这样的商业系统仅需要几分钟的音频样本,而百度最新的 Deep Voice 实现等复杂的模型可以从 3.7 秒的样本中复制语音。
斯坦福大学网络政策中心研究员、曾任奥巴马和特朗普政府时期白宫网络安全政策高级主管的 Andrew Grotto(安德鲁·格罗托)表示:“罪犯将使用任何能让他们以最低成本实现目标的工具。也许这是一项在 10 年前听起来很新奇的技术,但是现在任何有想法的非专业罪犯都可以使用。”
目前市面上的 AI 语音合成软件的工作原理是将一个人的声音分解成不同的组成部分,比如音轨或音节,然后将这些组成部分重新排列,形成具有相似语音模式、音调和音色的新语音。除了借助这种新技术,骗子们还依赖于最常见的诈骗技巧来提高他们的效率,利用时间压力,比如临近的截止日期,或者社会压力,比如安抚老板的愿望,来让受害人打消任何疑虑。在某些情况下,犯罪分子会瞄准公司会计或财务的负责人,因为他们知道这些人有能力立即汇款。
除了进行诈骗,DeepFake 音频还存在向公众传递负面信息的风险。RSA 大会演讲现场,Pindrop 的 CEO 向公众演示了一款合成公众人物声音的 AI 系统,这项技术通过在网上搜索特朗普之前的录音来模仿他的声音,耗时不到一分钟,并用美国总统特朗普的声音说了一些笑话。如果这项技术被用于仿造领导人物的声音,并用到犯罪事件中,无疑可能非常危险,甚至给国家安全带来危害。
AI 声音合成如此猖獗,应该如何防范?
虽然风险重重,但语音模拟技术的发展势不可挡。例如,Google 已经为自动识别 DeepFake 语音的研究项目提供了资金和资源的帮助。但 Google 也开发了一些世界上最具说服力的语音人工智能,包括它的 Duplex 服务,它可以用电脑生成的栩栩如生的声音,打电话给餐厅预定座位。
卡内基国际和平基金会(Carnegie Endowment for International Peace)硅谷办公室主任 Charlotte Stanton 则提醒业界:“在商业领域,人们有很强的的意愿想要制造出好的技术产品,但一定要平衡,避免它被用于非法途径。所以,研究人员在研发像 AI 语音合成技术这样强大的技术时需要更加谨慎,很明显,AI 语音合成已经到了可以被滥用的地步。”