每秒处理240万帧游戏画面

发布时间：2021-02-26 12:53:38 所属栏目：外闻来源：互联网

导读：IMPALA存在着许多缺点： 1、使用CPU进行神经网络推理，效率低下。而且随着模型变大、运算量变大，问题会越来越严重。 2、Actor和Learner之间模型参数的带宽成为性能的瓶颈。 3、资源利用效率低，Actor在环境和推理两个任务之间交替进行，而这两个任务的计算

IMPALA存在着许多缺点：

1、使用CPU进行神经网络推理，效率低下。而且随着模型变大、运算量变大，问题会越来越严重。

2、Actor和Learner之间模型参数的带宽成为性能的瓶颈。

3、资源利用效率低，Actor在环境和推理两个任务之间交替进行，而这两个任务的计算要求不同，很难在同一台机器上充分利用资源。

SEED RL体系架构解决了以上这些缺点。Actor可以在GPU、TPU这类AI硬件加速器上完成推理，通过确保将模型参数和状态保持在本地来加快推理速度，并避免数据传输瓶颈。

与IMPALA体系结构相反，SEED RL中的Actor仅在环境中执行操作。Learner在硬件加速器上使用来自多个Actor的成批数据来集中执行推理。

SEED RL在每个环境步骤将观测结果发送给Learner的同时，使用gPRC框架的网络库，将延迟保持在较低水平。这使SEED RL在一台机器上每秒最多可以实现一百万个查询。

Learner可以扩展到几千个核心上，Actor的数量可以扩展到几千台机器，从而实现每秒百万帧的训练速度。

SEED RL用到了两种最先进的算法：V-trace和R2D2。

V-trace负责从采样的动作中预测动作的分布，R2D2负责根据动作的预测未来值选择一个动作。

V-trace是基于策略梯度的方法，最早被IMPALA采用。由于Actor和Learner是异步执行，而V-trace在异步体系架构中的效果很好

第二种算法是R2D2，这是一种Q学习方法，DeepMind曾用这种算法将强化学习智能体在Atari游戏上的水平提高了4倍，并在52款游戏上超过了人类水平。

这种方法允许Q学习算法大规模硬件上运行的同时仍然可以使用RNN。

实验结果

谷歌在DeepMind最近研究的开源足球游戏项目Google Research Football中进行了基准测试。

（编辑：阜新站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

人工智能自己定制新蛋	对话元宇宙商业之父
弹丸之国以色列如何创	中加天文学家主导的国