人脸识别技术的滥用真的无解吗?

以上内容抄送 @科勒KOHLER、@正通汽车、@江苏大剧院JSCPA

人脸识别技术的滥用真的无解吗?
封面图片:Lianhao Qu

昨日的3·15晚会报道了部分商家在店内安装人脸识别摄像头,并且在未获同意的前提下私自储存并使用了所捕获的人脸信息。报道中涉及的商家包括科勒卫浴、江苏大剧院与正通汽车4S店。如果你还没有看过这篇报道可以观看下边这段视频。

2021年3·15晚会
中央电视台3•15晚会已经成为一个符号,是中国消费者最信赖的守护消费品质的舆论阵地。
请从10分06秒开始观看

该报道在互联网上引起轩然大波,毫不意外大部分人都表示了自己对该技术的担忧。

图像来源:果壳

首先表明观点:根据2021年1月1日正式实施的中华人民共和国《民法典》第一千零三十五条,晚会中报道的行为是违法行为,应当依法予以处理。

在这篇文章中,我想从技术角度切入,先来介绍下人脸识别技术的原理,然后再谈谈可能的解决方案。

人脸识别的原理

人脸识别是通过面部特征来区别不同人类个体的能力。我们在成长过程中习得了这份技能,并且在大脑中记忆了若干对自己重要的人的长相。然而对于脑中只有01的机器而言,识别人脸这项技能必须被分解为可计算的数学问题,然后再逐个解决。目前大热的人工智能人脸识别的背后其实是以深度学习为核心的解决方案。在这个方案中,人脸辨识被等价为判别两张图像中人脸的相似性,相似程度越高,是一个人的可能性越大。

三张人脸,哪两个相似程度更高?图像来源:Disney

即便你从未见过他们,上图中右侧两张图像人脸的相似程度更高,这是我们凭借人类的视觉系统与大脑做出的直观判断。而机器则首先使用一个预先打包好的计算规则来对三张图像分别执行运算,并为每张图像输出一个独特的数字组合。这个独特的数字组合被用作相似度的计算。

人脸相似度计算过程。图像来源:尹国冰

上图展示了三张人脸图像的相似度计算过程。正常情况下,最终输出的三个相似度数值中,相似度2最高,代表中间人脸与下方人脸很可能是同一个人。

技术滥用的背景

在这个简化过程图中,运算规则正是深度学习发挥作用的地方。它的输入为人脸图像,输出为数字组合。这里的数字组合其实是一个固定长度的向量,也被称为特征向量。基于深度学习的人脸识别方案一直在追寻更加合适的特征向量生成方式。这个过程本身已经不是什么秘密。甚至如果你原意,我在GitHub上开源了一套人脸识别模型的生成方案,你可以使用它来获得特定条件下98%以上的识别准确率。当然,目前以人脸识别为业务的公司这个数值均在99%以上。某种程度上,这项技术的门槛变低了。这是技术被滥用的第一个前提条件。

人脸识别对于人类来说不算是什么困难的技能,对于人类而言,如何记忆海量人脸才是令人头痛的地方。而上述过程中的图像与生成的特征向量,本质只是一串数字而已。储存数字,是计算机天生擅长做的事情。3·15晚会中苏州万店掌网络科技有限公司的薛经理声称掌握了上亿人的人脸信息。如果雇人来完成这上亿人脸的记忆与匹配工作,你可以想象下需要的员工数量。而使用计算机的话,我电脑里一份包含580多万人脸图像的数据集只有不到18GB。随便一只手机都放得下。受益于信息技术的高度发展,这项技术的成本大大降低了。这是技术被滥用的第二个条件。

在3·15晚会的报道中,使用该技术方案的科勒(中国)投资有限公司上海华东区零售销售主任有这么一段话:

“比如这个人过来了,B店会提示这个人也逛过A店,B店如何去接待、如何去报价,就有心理准备了。”

提供该技术的雅量智能技术(广州)有限公司的黄经理则有这样一番表述:

“像这一部分的话,我们可以手动做一个标签,比如说像同行、职业打假人、记者之类的。这种标签一旦打上,很精准,到时候不管你到我这个门店,还是到全部其它分店,都一目了然。”

很显然,如何在与顾客的博弈中处于优势地位、如何与同行竞争时获得信息优势、如何逃避舆论监管,是商家使用该技术的主要目的。这是商家过去想做而做不到的事情,是一个需求庞大的市场。这些提供人脸识别技术的公司投其所好,双方一拍即合,在利益的驱使下,人脸识别摄像头在商家店面迅速铺展开来。这是技术被滥用背后的推动力量。

技术滥用的受害者与受益者

一直以来,技术进步都被当做是一件好事看待。但是看问题要辩证,要适当深入。

在3·15晚会的报道中,进店的顾客毫无疑问成了该技术的受害者。被掌握的不仅仅是顾客的行踪,甚至还有顾客的情绪。传统线下销售场景中顾客与商家的博弈平衡被打破,商家彻底掌握了主动权。在线上饱受诟病的“大数据杀熟”正在向线下迁移,而且更加隐蔽——不只是摄像头难以察觉,整个过程都在暗中静默执行,无论你是否同意。而受益者也很明显,采用该技术的商家在这项技术的应用中获得全方位的博弈优势,售卖该技术的商家则获得经济回报。在这场三方博弈中,它们获得了真正意义上的双赢。

如何破解人脸识别滥用难题