加入收藏 | 设为首页 | 会员中心 | 我要投稿 阜新站长网 (https://www.0418zz.com.cn/)- 管理运维、AI硬件、数据集成、云备份、负载均衡!
当前位置: 首页 > 站长资讯 > 传媒 > 正文

从头开始的实现完整的异常检测算法

发布时间:2021-02-07 16:48:22 所属栏目:传媒 来源:互联网
导读:(1)一个音频剪辑和一个单一的面部图像可以制作一个与音频协调的,能感知说话者的头部动画。 (2)在训练阶段,使用现成的人脸检测器对输入的视频进行预处理,提取标记,从输入的音频中训练基础模型,实现语音内容转动画和标记的精确提

(1)一个音频剪辑和一个单一的面部图像可以制作一个与音频协调的,能感知说话者的头部动画。

(2)在训练阶段,使用现成的人脸检测器对输入的视频进行预处理,提取标记,从输入的音频中训练基础模型,实现语音内容转动画和标记的精确提取。

(3)为了获得高精度的运动,通过对输入音频信号的分离内容和说话人嵌入来检测标记点的估计。为此,采用语音转换神经网络对语音内容进行提取,发现语音内容。

(4)内容与说话者无关,并且捕获了嘴唇和相邻部位的常见运动,其中说话内容调节了动作的特征和说话者头部动作的剩余部分。
 

质上, MakeItTalk将输入音频信号中的内容和说话人分离出来,从产生的抽象表示中提取出对应的动画。

而嘴唇和相邻面部的协同也尤为重要。说话者的信息被用来获取其他面部表情和头部动作,而这些对于生成富有表现力的头部动画是必需的。

MakeItTalk模型既可以生成逼真的人脸说话图像,也可以生成非逼真的卡通说话图像。
 

尽管在技术上取得了无数的成就,但是创造逼真的面部动画仍然是计算机图形学的挑战。

一是整个面部表情包含了完整面部各部分之间的相互关系,面部运动和语音之间的协同是一项艰巨的任务,因为面部动态在高维多重影像中占主导地位,其中头部姿势最为关键。

二是多个说话人会有不同的说话方式,控制嘴唇一致,不足以了解说话的人的性格,还要表达不同的个性。

针对上述问题,Yang Zhou博士和他的团队提出了一种具有深度结构的新方法「 MakeItTalk」。

这是一种具有深度架构的新方法,只需要一个音频和一个面部图像作为输入,程序就会输出一个逼真的「说话的头部动画」。
 

为什么说Go适用于AI研究?

实际上,Go语言对于人工智能和数据科学研究本身来说并没有什么特别之处。那么为什么将其用于这些领域呢?

30年前,尚且没有将Python用于构建机器学习和深度学习算法以进行数据可视化。Python能够有现在的辉煌,是因为开发者和学生喜欢用这种语言编程,并且能够实现开发者的开发目的。

而Go语言旨在提升程序开发的生产力。和Python相比,它具备多个优点。Go语言很有可能在未来几年中取代Python,成为最受欢迎的语言。

因此,一言以蔽之:

未来十年,Go语言比其他任何一种语言都更能支持开发者们的想法。
 

近,麻省大学Amherst分校的Yang Zhou博士和他的团队提出了一种具有深度结构的新方法「MakeItTalk」。给定一个音频语音信号和一个人像图像作为输入,模型便会生成说话人感知的有声动画图。

富有表现力的动画谁都想要!

面部动画在很多领域都是一项关键技术,比如制作电影、视频流、电脑游戏、虚拟化身等等。

(编辑:阜新站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读