架构改进是唯一的出路吗?

执迷于架构创新?训练与缩放策略能让老ResNet焕发新生。

架构改进是唯一的出路吗?

封面图片:Rostyslav Savchyn

ResNet是由何凯明等人在2015年提出的一种深度神经网络架构。它通过跳跃连接改善了深层网络在训练时遇到的梯度消失问题,成为深度神经网络的典型架构。在这篇题为 Revisiting ResNets: Improved Training and Scaling Strategies 的文章中,作者Irwan Bello等人认为,即便是老架构ResNet,在改进的训练与缩放策略下,也能获得与最新架构EfficientNet接近的性能。并提出在搜寻最佳模型时的可行方法。你可以在这里找到原文:

Revisiting ResNets: Improved Training and Scaling Strategies
Novel computer vision architectures monopolize the spotlight, but the impactof the model architecture is often conflated with simultaneous changes totraining methodology and scaling strategies. Our work revisits the canonicalResNet (He et al., 2015) and studies these three aspects in an effort to…

以下为我的读书笔记。


依托深度神经网络灵活的机构,在模型架构上做文章是一项非常受欢迎的决策。但是,大多数研究提到的模型架构创新往往合并了全新的训练方法,而用来作对比的基线模型却是采用老方法训练的。所以,架构创新带来的收益究竟有多高?