加入收藏 | 设为首页 | 会员中心 | 我要投稿 阜新站长网 (https://www.0418zz.com.cn/)- 管理运维、AI硬件、数据集成、云备份、负载均衡!
当前位置: 首页 > 站长资讯 > 评论 > 正文

微软旷视人脸识别100%失灵!

发布时间:2021-02-18 15:18:42 所属栏目:评论 来源:互联网
导读:视觉编码: 将视觉信息进行编码化处理,并传递给转换器MIDI解码器。从视频帧中提取关键坐标点,使用GCN(Graph-CNN)捕获人体动态随时间变化产生的潜在表示。 MIDI解码器: 通过Graph-Transfomers完成人体姿态特征和MIDI事件之间的相关性进行建模。Transfome

视觉编码:将视觉信息进行编码化处理,并传递给转换器MIDI解码器。从视频帧中提取关键坐标点,使用GCN(Graph-CNN)捕获人体动态随时间变化产生的潜在表示。

MIDI解码器:通过Graph-Transfomers完成人体姿态特征和MIDI事件之间的相关性进行建模。Transfomers是基于编解码器的自回归生成模型,主要用于机器翻译。在这里,它可以根据人体特征准确的预测MIDI事件的序列。

MIDI输出:使用标准音频合成器将MIDI事件转换为最终的波形。

实验结果

研究人员证实Foley Music远优于现有其他模型。在对比试验中,他们采用了三种数据集对Foley Music进行了训练,并选择了9中乐器,与其它GAN-based、SampleRNN和WaveNet三种模型进行了对比评估。

其中,数据集分别为AtinPiano、MUSIC及URMP,涵盖了超过11个类别的大约1000个高质量的音乐演奏视频。乐器则为风琴,贝斯,巴松管,大提琴,吉他,钢琴,大号,夏威夷四弦琴和小提琴,其视频长度均为6秒。以下为定量评估结果:

可见,Foley Music模型在贝斯(Bass)乐器演奏的预测性能最高达到了72%,而其他模型最高仅为8%。


 

体关键点:由AI系统中的视觉感知模块(Visual Perception Model)来完成。它会通过身体姿势和手势的两项指标来反馈。一般身体会提取25个关2D点,手指提起21个2D点。

乐器声音提取:采用音频表征模块(Audio Representation Model),该模块研究人员提出了一种乐器数字化接口(Musical Instrument Digital Interface,简称MIDI)的音频表征形式。它是Foley Music区别于其他模型的关键。

研究人员介绍,对于一个6秒中的演奏视频,通常会生成大约500个MIDI事件,这些MIDI事件可以轻松导入到标准音乐合成器以生成音乐波形。

在完成信息提取和处理后,接下来,视-听模块(Visual-Audio Model)将整合所有信息并转化,生成最终相匹配的音乐。

我们先来看一下它完


 

但实际上,出厂的AutoPilot 2.5只拥有L3以下的自动驾驶水平,根本无法脱离人的控制。

这也是特斯拉事故的重要原因,车主不是不信任自动驾驶,而是因为过于信任自动驾驶技术。

自动驾驶汽车教育协会(PAVE)认为,向民众普及自动驾驶的正确概念,无疑会促进自动驾驶市场的发展。

自动驾驶系统的未来

自动驾驶技术的未来,不仅和技术相关,更与民众对其的具体认知有关。

技术决定论者认为人类可以无条件信任机器,比如马斯克认为脑机接口可以来带人的进化,但在批评家看来,如纽约大学教授尼尔·波兹曼,技术会成为奴役人的帮凶。

所以自动驾驶的发展,不仅是技术的挑战,也在于认知、市场教育和观念的更新。

想要让更多人完全信任坐上RoboTaxi,RoboTaxi的玩家们,要做的还很多……

我们不妨也做个简单调研,你敢坐RoboTaxi吗?



(编辑:阜新站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读