微软演示 VASA-1 深度伪造因效果太好不适合向公众发布

站长之家(ChinaZ.com) 4 月 21 日消息:本周，微软演示了 VASA–1，这是一个基于静态图像、音频样本和文本脚本来创建人物讲话视频的框架，微软声称——这是正确的——这个框架太危险了，不适合向公众发布。

这些由 AI 生成的视频，[]可以让人物以[]克隆的声音令[]人信服地配合[]脚本说话，正[]是美国联邦贸[]易委员会上个[]月警告的那种[]情形，之前已[]提出规则以防[]止利用 AI 技术进行冒充[]诈骗。

微软团队在宣布中就承认了这一点，他们解释说由于伦理考虑，此技术没有发布。他们坚称，他们展示的研究用于生成虚拟互动人物，而不是为了冒充任何人。因此，没有计划推出任何产品或 API。

微软的研究人[]员声明：「我[]们的研究重点[]是为虚拟 AI 化身生成视觉[]感知技能，以[]期望正向应用[]。」他们接着[]说，「本意并[]不是创造用来[]误导或欺骗的[]内容。

然而，像其他[]相关的内容生[]成技术一样，[]它仍可能被滥[]用来冒充人类[]。我们反对任[]何创建误导或[]有害真实人物[]内容的行为，[]并且对将我们[]的技术应用于[]促进伪造检测[]感到兴趣。」[]

生物特征认证公司Token 的主席，也是常谈生成 AI 的演讲者 Kevin Surace 通过电子邮件告诉 The Register，虽然之前有技术演示显示了由静态画面和克隆的声音文件动画化的脸，但微软的示范反映了最新技术状态。

「个性化电子[]邮件和其他商[]业群众通信的[]潜力是巨大的[]，」他认为。[]「甚至还包括[]动画化旧照片[]。从某种程度[]上说，这只是[]好玩，另一方[]面它有我们在[]未来几个月和[]几年内都会使[]用的实际商业[]应用。」

网络安全公司[] Deeptr[]ace 在 2019 年进行评估时[]发现，深度伪[]造的「乐趣」[]在于 96% 是非自愿色情[]内容。

尽管如此，微软的研究人员认为，能够创造出看起来逼真的人物并将文字放到他们嘴里，是有正面用途的。

他们在一篇研究论文中提出，「此类技术有望丰富数字通信，提高那些有沟通障碍者的可及性，通过互动 AI 辅导转变教育方法，以及在医疗保健中提供治疗支持和社交互动。」值得注意的是，该论文中没有提及「色情」或「假信息」。

尽管有争议，[]AI 生成的视频不[]完全等同于深[]度伪造，后者[]被定义为数字[]操纵而不是生[]成方法，但当[]一个令人信服[]的假象可以不[]用剪切粘贴技[]术而轻易地被[]使用时，这种[]区别就变得无[]关紧要了。

当被问及微软[]不向公众发布[]这项技术以防[]滥用的事实时[]，Surac[]e 对限制的可行[]性表示怀疑。[]

他说：「微软[]和其他公司目[]前已经暂停，[]直到他们解决[]隐私和使用问[]题。」他问道[]，「将如何规[]范那些出于正[]确理由使用此[]技术的人？」[]

Surace 补充说，已经有相似精细的开源模型存在，例如 EMO。他说：「人们可以从 GitHub 提取源代码并围绕它构建服务，这可能会与微软的输出相匹敌。」他注意到，「因为这个领域的开源特性，不管怎样，规范它都是不可能的。」

尽管如此，世[]界各地的国家[]正在尝试规范[] AI 伪造的人物。[]加拿大、英国[]等国家都有可[]以应用于深度[]伪造的规定，[]其中一些规定[]满足了更广泛[]的政治目标。[]正是这个星期[]，英国刚刚使[]未经同意制作[]色情深度伪造[]图像成为非法[]行为。在英国[]的 2023 年在线安全法[]下，分享此类[]图片已是不允[]许的。

今年 1 月，美国两党[]议员提出了 2024 年打击显著伪[]造图像和非自[]愿编辑行为法[]案（DEFI[]ANCE Act），该[]法案为非自愿[]深度伪造图像[]的受害者在法[]庭上提起民事[]诉讼创造了途[]径。

以及在周二，4 月 16 日，美国参议院司法委员会隐私、技术与法律小组委员会举行了题为「人工智能监管：选举深度伪造」的听证会。

在准备好的声[]明中，Dee[]pMedia[] 的 CEO Rijul Gupta 说道：

「深度伪造最令人担忧的方面是，它们能够为坏人提供合理的否认理由，使他们能够将真正的内容视为假的。公众信任的这种侵蚀打击了我们社会结构的核心和民主的基础。人类的大脑天生就相信所见所闻，因此特别容易受到深度伪造的欺骗。随着这些技术变得越来越复杂，它们有可能破坏我们社会所依赖的共同现实感，营造出一种不确定和怀疑的氛围，让公民质疑他们遇到的每一条信息的真实性。」

微软演示 VASA-1 深度伪造因效果太好不适合向公众发布

评论区

分类

存档

标签

搜索

最新评论