TensorFlow

TensorFlow模型剪枝原理

剪枝技术背景与细节

本文是对论文“To prune, or not to prune: exploring the efficacy of pruning for model compression”的摘抄。这篇文章是TensorFlow模型优化工具文档中推荐的，作者Michael H. Zhu，来自斯坦福大学。在这里可以找到论文原文。

背景

对于资源有限的移动终端设备来说，内容带宽通常是一个重要的限制因素。模型压缩至少有两点好处：减少耗电的内存访问次数；同等带宽下提升压缩模型参数的获取效率。剪枝将不重要的模型权重归零，实现了模型压缩的同时只带来了较小的质量损失。剪枝之后的模型是稀疏的，在支持稀疏矩阵加速运算的硬件上可以进一步获得加速效果。

国冰提示：
英伟达的第三代张量核心（Tensor Core）对于稀疏矩阵的运算有约5倍的性能提升。这一点我们在文章“深度学习要买RTX3080吗”中有过介绍。

在模型内存足迹（memory footprint）一定的前提下，如何获得最准确的模型，是本文的核心内容。作者通过对比两种模型来回答这个问题。第一种，先训练一个大模型，然后通过剪枝将其转换为一个强稀疏模型；第二种，直接训练一个非稀疏模型，尺寸与稀疏模型相当。在具体的模型架构与任务上，作者做出以下选择：

图像分类：Inception V3与MobileNets
序列分析：stacked LSTMs与seq2seq

方案

作者在TensorFlow的基础上实现了训练中剪枝。针对每一个选定的layer，增加同尺寸同形状的二元mask变量作为该layer的权重张量，并决定在哪个权重参数参与网络的前向传播。同时，在训练图中注入算子对该层的权重按照绝对值大小排序，将最小的权重置零直到该层的稀疏程度达到预定指标。反向传播的梯度同样会经过该二元mask，但是不会更新被置零的权重。

稀疏程度随着训练的进程逐渐增加，并满足公式：

$$ s_t=s_f+(s_i-s_f)\left (1- \frac{t-t_0}{n \Delta t} \right)^3 $$

其中$s_i$为初始稀疏率，$s_f$为最终稀疏率，$n$为修剪总步数，$t$为训练步数，$\Delta t$为修剪频率。

二元mask每$\Delta t$更新一次，这有助于网络的准确率从修剪后的状态逐步恢复。作者的实验表明当$\Delta t$的取值在100到1000之间时剪枝对最终的模型质量影响可以忽略。一旦模型达到预定的稀疏指标，权重mask停止更新。按照稀疏率变化公式，训练早期频繁剪枝，随着训练进展，剪枝的频率越来越低——因为可供剪枝的权重越来越少。如下图所示。

网络稀疏程度进展，作者：Michael H. Zhu， et.al.

实际剪枝过程中，网络会先训练若干epoch或者加载一个已经训练好的网络，这就决定了$t_0$。参数$n$则很大程度上取决于学习率曲线。作者观察到随着学习率的下降，剪枝后的模型准确率可能会很难恢复过来。反过来，过高的学习率则可能导致权重在收敛到较优值之前被剪掉。因此需要将两者紧密结合起来。例如上图中，对Inception V3剪枝的过程安排在学习率相对较大的阶段。

下图则展示了训练过程中模型准确率的变化。对于稀疏率达87.5%的模型，随着稀疏程度的上升，模型经历了“几乎灾难性”的衰退，但是随后又很快恢复了过来。这种现象在高稀疏率的模型中更加常见。