车牌识别LPRNet

从图像到序列

车牌识别LPRNet

车牌识别是一项蛮有意思的任务。它的输入为图像——二维空间结构特征明显;输出为车牌号——序列化的数据。最直观的做法是将车牌图像按照字符位置分割,然后作为OCR任务处理。LPRNet (License Plate Recognition) 则另辟蹊径,使用一个卷积神经网络解决了这个问题。

LPRNet发表于2018年,作者Sergey Zherzdev等人将其主要贡献概括为3点:

  1. LPRNet支持不定长车牌的端到端训练。
  2. LPRNet没有使用循环神经网络。
  3. 稳健,可以应对各种特殊场景。

LPRNet的基本模块参考了SqueezeNet Fire Blocks与Inception Blocks。每个卷积层后叠加ReLU与BatchNorm。

LPR Block

骨干网架构中,输入图像先经卷积层降采样,然后依次通过多个叠加的子模块,并穿插pooling、dropout等正则化层。最终的输出序列是不定长的,所以作者使用了CTC损失方案。