微软旷视人脸识别100%失灵!

发布时间：2021-02-18 15:18:42 所属栏目：评论来源：互联网

导读：视觉编码：将视觉信息进行编码化处理，并传递给转换器MIDI解码器。从视频帧中提取关键坐标点，使用GCN（Graph-CNN）捕获人体动态随时间变化产生的潜在表示。 MIDI解码器：通过Graph-Transfomers完成人体姿态特征和MIDI事件之间的相关性进行建模。Transfome

视觉编码：将视觉信息进行编码化处理，并传递给转换器MIDI解码器。从视频帧中提取关键坐标点，使用GCN（Graph-CNN）捕获人体动态随时间变化产生的潜在表示。

MIDI解码器：通过Graph-Transfomers完成人体姿态特征和MIDI事件之间的相关性进行建模。Transfomers是基于编解码器的自回归生成模型，主要用于机器翻译。在这里，它可以根据人体特征准确的预测MIDI事件的序列。

MIDI输出：使用标准音频合成器将MIDI事件转换为最终的波形。

实验结果

研究人员证实Foley Music远优于现有其他模型。在对比试验中，他们采用了三种数据集对Foley Music进行了训练，并选择了9中乐器，与其它GAN-based、SampleRNN和WaveNet三种模型进行了对比评估。

其中，数据集分别为AtinPiano、MUSIC及URMP，涵盖了超过11个类别的大约1000个高质量的音乐演奏视频。乐器则为风琴，贝斯，巴松管，大提琴，吉他，钢琴，大号，夏威夷四弦琴和小提琴，其视频长度均为6秒。以下为定量评估结果：

可见，Foley Music模型在贝斯（Bass）乐器演奏的预测性能最高达到了72%，而其他模型最高仅为8%。

体关键点：由AI系统中的视觉感知模块（Visual Perception Model）来完成。它会通过身体姿势和手势的两项指标来反馈。一般身体会提取25个关2D点，手指提起21个2D点。

乐器声音提取：采用音频表征模块（Audio Representation Model），该模块研究人员提出了一种乐器数字化接口（Musical Instrument Digital Interface，简称MIDI）的音频表征形式。它是Foley Music区别于其他模型的关键。

研究人员介绍，对于一个6秒中的演奏视频，通常会生成大约500个MIDI事件，这些MIDI事件可以轻松导入到标准音乐合成器以生成音乐波形。

在完成信息提取和处理后，接下来，视-听模块（Visual-Audio Model）将整合所有信息并转化，生成最终相匹配的音乐。

我们先来看一下它完

但实际上，出厂的AutoPilot 2.5只拥有L3以下的自动驾驶水平，根本无法脱离人的控制。

这也是特斯拉事故的重要原因，车主不是不信任自动驾驶，而是因为过于信任自动驾驶技术。

自动驾驶汽车教育协会（PAVE）认为，向民众普及自动驾驶的正确概念，无疑会促进自动驾驶市场的发展。

自动驾驶系统的未来

自动驾驶技术的未来，不仅和技术相关，更与民众对其的具体认知有关。

技术决定论者认为人类可以无条件信任机器，比如马斯克认为脑机接口可以来带人的进化，但在批评家看来，如纽约大学教授尼尔·波兹曼，技术会成为奴役人的帮凶。

所以自动驾驶的发展，不仅是技术的挑战，也在于认知、市场教育和观念的更新。

想要让更多人完全信任坐上RoboTaxi，RoboTaxi的玩家们，要做的还很多……

我们不妨也做个简单调研，你敢坐RoboTaxi吗？

（编辑：阜新站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!