前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >NEURAL ARCHITECTURE SEARCH WITH REINFORCEMENT LEARNING 论文解读

NEURAL ARCHITECTURE SEARCH WITH REINFORCEMENT LEARNING 论文解读

作者头像
灯塔大数据
发布2020-06-03 16:59:45
1K0
发布2020-06-03 16:59:45
举报
文章被收录于专栏:灯塔大数据灯塔大数据

此论文出自google Brain并发表与ICLR2017,看这篇论文主要是google Brain在cvpr2017上发表了一篇NASnet论文。

谷歌基于强化学习的神经网络结构搜索的示意图如下所示:

通过RNN生成的长度可变的string,作为构建目标神经网络的指令(具体见下文),这在强化学习框架中可被视为action。接着,训练好的神经网络在验证集上的表现,如准确率,将作为回报reward反馈给强化学习算法。强化学习将根据反馈的reward更新agent的参数,在该case下就是RNN的参数θ,从而使得RNN能生成表现更好的神经网络。

如果在强化学习的层面上看待这个神经网络结构搜索的问题,我们可以对强化学习和神经网络结搜索有更深的体会。在这个case上,每次进行上述一个循环,可被视为进行了一场游戏,与常见的强化学习例子不同的是,该游戏仅走一步就结束了(生成一个神经网络)。RNN的作用则是一个策略网络,它先是输出动作空间上的概率分布,然后根据这种概率分布采样得到某组动作,该动作指导构建神经网络,其在验证集上的表现作为奖励回报。强化学习在这个问题上用的是策略梯度类型的算法,如PPO。简单地说,该算法通过reward的诱导,使得产生较大reward的动作的被采样出来的概率提高,反之则降低,从而使得最终回报能理论上以梯度的速度提升。

从强化学习的角度去解读这个case,一些常见的问题可能会有:

1) 为什么用RNN作为策略网络,原始的PPO算法,它用的是一个简单的全连接网络作为策略网络。

答:因此通常情况下,动作/指令的长度是固定的,但在这个case下,动作是长度可变的指令,但它依然可被视为单次的action。所以,为了生成长度不固定的输出,需要用到RNN而不是普通NN。

2) 对于这个case,state对应着什么?

答:在这里,讨论state是没有意义的。之前说到,这个case下每个循环就是一场游戏,而且游戏只走1步就结束了。这个问题跟multi-bandit problem是类似的,不同的是multi-bandit problem的动作空间是离散且有限的,而该case的动作空间是连续且无限的。无论是这个case还是multi-bandit problem,都不会讨论state这个概念,因为状态的集合仅由初始和结束状态构成,即state={S_start,S_fin},而且从S_start到S_fin的转移概率是100%。换句话说,每次生成一个神经网络,无论生成得好还是不好,最终都会在验证集上验证然后得到一个反馈分数。

下面介绍一下具体流程:

对于生成CNN结构的情况,RNN产生出的控制string会指定CNN的一些主要参数,如每层卷积层的filter数,filter的长和宽,filter的位移步长等。上图是产生简单的堆叠式CNN的示意图。此外,通过引入更复杂的指令,RNN可以生成更复杂的动作指导,如下图所示,通过Anchor Point提供的标识,第N层卷积层可以用前N-1层的输出作为输入。

对于生成RNN结构的情况,会稍显复杂,但大体上思路与CNN的情况类似。

RNN单元的生成框架为上图左边的树形结构,中间的图为RNN控制器生成的指令序列而右边的小图则对应根据生成指令生成得到的RNN单元的样子。

关于搜索得到的CNN和RNN网络的性能,下图给出了它们和当时最优的神经网络结构的对比,表格1是神经网络结构搜索得到的CNN和其他CNN结构在CIFAR-10数据集上的表现效果,在error rate上,神经网络结构搜索得到的CNN要优于其他CNN网络;同样地,神经网络结构搜索得到的RNN在Penn Treebank 数据集上也优于其他先进的RNN网络。

结语:

谷歌这篇用强化学习进行神经网络结构搜索的论文算得上是带热了一波神经网络结构搜索的研究热潮,其研究意义也是现而意见的,它能很大程度上降低设计神经网络的人工成本和门槛。但另一方面,其算力上的代价也是巨大的,对于上文提到的用于CIFAR-10的CNN网络结构搜索,谷歌用了800张GPU跑了3~4周才得到当时最优的CNN结构。但后来提出ENAS则解决了这个问题,使得搜索效率调高了1000倍。尽管如此,这篇文章的最主要贡献是提供了开拓了先河,后续的相关研究也是在这基础之上改良的,因为丝毫不影响其重要地位。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-06-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 融智未来 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档