革新人工智能动画
继推出中国首部人工智能系列动画片 阿里巴巴智能计算研究院推出了一个突破性的人工智能系统,名为 "EMO",是 "Emote Portrait Alive "的缩写。这一创新系统能够将静态人像照片制作成动画,使其在说话和唱歌视频中栩栩如生,逼真度令人惊叹。
EMO:人工智能动画技术的飞跃
EMO 采用从音频到视频的直接合成方法,无需中间的 3D 模型或面部地标。这项开创性的技术可以创造出流畅而富有表现力的面部动作和头部姿势,并与所提供音轨的细微差别完美吻合。
(来源:Emote Portrait Alive)
直接音频到视频合成
与以往依赖三维面部模型或混合形状的方法不同,EMO 直接将音频波形转换为视频帧。这样,它就能捕捉到与自然语音相关的细微动作和个人面部特征,为音频驱动的谈话头像视频生成设定了新标准。
角色奥黛丽-凯瑟琳-赫本-罗斯顿,声乐资料来源:采访片段(资料来源:Emote Portrait Alive采访片段(来源:Emote Portrait Alive)
最先进的培训技术
该系统的基础在于扩散模型,这是一种强大的人工智能技术,以生成逼真的合成图像而著称。EMO 在一个庞大的数据集上进行了训练,该数据集包含来自各种媒体的超过 250 个小时的策划好的 "对话头像 "视频,经过精心磨练,EMO 可以提供无与伦比的质量和表现力。
卓越的性能指标
研究论文中概述的实验结果表明,EMO'优于现有方法。它在视频质量、身份保护和表现力等关键指标上都优于竞争对手。一项用户研究进一步证实了 EMO 生成的视频的自然性和情感性。
扩展功能:歌唱视频
除了对话视频,EMO 还能熟练地制作歌唱肖像动画。它能将口型和面部表情与歌声同步,因此能制作出逼真度和表现力极高的歌唱视频,超越了当前的行业标准。
角色来自 SORA 的 AI Lady,音源:Dua Lipa - Don't Start Now(音源:Emote Portrait AliveDua Lipa - Don't Start Now (来源:Emote Portrait Alive)
它的功能还包括说唱,进一步拓展了其创造潜力。
人物中国名人蔡徐坤,声乐来源:Eminem - Rap God (来源:Emote Portrait Alive)
影响和伦理考虑
不可否认,EMO'将静态肖像制作成动画的能力令人印象深刻,为个性化内容创作提供了新的途径。然而,滥用的可能性,包括生成从最近泰勒-斯威夫特(Taylor Swift's)的案件中可以看出,深层伪造是为了色情目的 传播错误信息,例如新加坡总理李显龙推广加密货币 甚至影响选举,如美国 2024 年总统大选 这是一个至关重要的考虑因素。 与任何强大的技术一样,负责任的开发和保障措施对于减轻潜在危害和确保 EMO 继续成为一种有益的力量至关重要。
未来一瞥
阿里巴巴 EMO 代表着人工智能动画技术的重大飞跃。它能够为静态图像注入生命,制作出栩栩如生的说话和唱歌视频,为各种应用带来了巨大的前景。然而,与任何变革性技术一样,要确保负责任的创新,最重要的是认真考虑道德影响。