封面图片:Photo by CHUTTERSNAP on Unsplash

最近在复现BlazeFace人脸检测。由于官方没有释出训练用代码,所以一切都得从头来过。幸运的是,在物体检测方向有着非常成熟的开源方案可以参考。例如Google官方的物体检测实现,地址如下:

tensorflow/models
Models and examples built with TensorFlow. Contribute to tensorflow/models development by creating an account on GitHub.

在不考虑完备性的前提下,我们可以将需要解决的问题粗糙的分为两类:分类与回归。分类问题要给出的结果多为概率:例如图片中的动物是猫的概率大还是狗的概率大;回归问题需要给出具体的数值:例如人脸图片中瞳孔的具体像素坐标。物体检测恰好能够被分解为这两个问题的组合,而解决的思路正是将这两个问题分而治之的结果。

Anchor,中文翻译为锚,是当前流行的物体检测方案中的核心概念。它的存在像是化学反应中的催化剂,降低了问题的难度,提升了解决问题的效率。物体检测问题分解后的分类与回归均围绕着它来展开。理解锚的角色与原理是搞懂深度学习物体检测原理的关键。它不仅有助于更好的定制化现有方案,也是在该领域开展研究工作不可或缺的垫脚石。

所以,在物体检测原理视频里,我计划着重分解anchor,其原理、作用与实现。作为CV系列视频的专题之一,是不可错过的一期呢!