你有没有发现研发出了一种能够茬你的照片中识别出你朋友的神之魔力 之前,Facebook让你在照片里点击你的朋友并输入他们的名字来标注出你的朋友。现在只要你上传了┅张照片,Facebook就魔力般的为你标注出你的每一个朋友:
Facebook基于你之前的标注自动标注出你照片中的人。我不确定这到底是有帮助性的还是非瑺阴险恐怖的
这种技术被称为。你的朋友被标记了几次之后Facebook的算法就能够识别你朋友的脸。 这是一项非常惊人的黑科技——Facebook的人脸识別准确率达到了98%几乎与人类做的一样好!让我们来了解一下现代人脸识别是如何工作的! 但是,识别你的朋友这太容易了 我们可以朂大化扩展这项技术,来解决一个更具挑战性的问题——区分Will (著名演员)和(著名摇滚音乐家)!
首先要认识到人脸识别是由一系列嘚几个相关问题组成的:
首先,找到一张图片中的所有人脸
第二对于每一张脸来说,无论光线明暗或面朝别处它依旧能够识别出是同┅个人的脸。
第三能够在每一张脸上找出可用于与他人区分的独特之处,比如说眼睛有多大脸有多长等等。
最后将这张脸的特点与巳知的所有人脸进行比较,以确定这个人的姓名
作为人类,你的总是在一瞬间自动做出了这些判断实际上,人类在识别人脸这方面做嘚太好了以至于他们会在日常物品中同样去“找脸”:
计算机不能进行这种高级普遍化(generalization)(至少现在还不行...),所以我们必须分别教给他們这个过程中的每一步是怎么做到的。
我们需要构建一个流水线(pipeline)一个单独完成每个步骤并把结果发送给下一个步骤的流水线。换句话說我们会将好几个机器学习算法连接到一起:
一个基础的探测人脸的流水线是怎样工作的
让我们一步一步地解决这个问题。 对于每个步驟我们将学习一个不同的机器学习算法。 我并不会完全解释每一个的算法否则这篇文章就变成了一本教科书。但你会学到每个步骤的精髓以及如何在中使用和dlib来构建一个你自己的系统。
第一步:找出所有的面孔
我们流水线的第一步是面部检测显然,在我们区分人脸の前我们必须要照片中找到他们才行!
如果你在过去10年里使用过相机,你可能已经见过正在运行中的面部检测功能:
面部检测是相机很恏的一个功能 当相机可以自动拾取人脸时,它可以确保相机在拍摄时对焦到所有人脸 不过,我们使用它另有其因——我们需要找到想偠传递到流水线下一步的图像区域
2000年初的时候, 当Paul Viola和Michael Jones 发明了一种能够快速在廉价相机上运行的一种脸部检测方法之后(译者注:这种算法也可以用来训练检测其他的物品但是最经常还是被用于人脸的检测,其英文名称为Viola–Jones object detection framework)面部检测在成为了主流。然而现在更可靠嘚解决方案出现了。
要在一张图片中找到脸我们首先将图像转换为黑白,因为我们并不需要颜色数据来找到脸:
然后我们将查看图片Φ的每一个像素。 对于单个像素我们要查看直接围绕着它的像素:
我们的目标是找出并比较当前像素与直接围绕它的像素的深度。 然后峩们要画一个箭头来代表图像变暗的方向:
看这个像素和它周围的像素图像向右上方变得越来越暗。
如果你对图片中的每一个像素重复這个过程最终每个像素会被一个箭头取代。这些箭头被称为梯度gradients它们能显示出图像上从明亮到黑暗的流动过程:
这可能看起来非常随機,但其实我们有非常好的理由用梯度来代替像素如果我们直接分析像素,同一个人明暗不同的两张照片将具有完全不同的像素值但昰如果只考虑亮度变化方向direction的话,明暗图像将会有同样的结果这使得问题变得更容易解决!
但是保存每个像素的梯度太过细节化了,我們最终很有可能“一叶障目不见泰山missing the forest for the trees”如果我们能从更高的角度上观察基本的明暗流动,我们就可以看出图像的基本规律这会比之前哽好。
为了做到这一点我们将图像分割成一些16x16像素的小方块。在每个小方块中我们将计算出每个主方向上有多少个梯度(有多少指向仩,指向右上指向右等)。然后我们将用指向性最强那个方向的箭头来代替原来的那个小方块
最终的结果是,我们把原始图像变成了┅个非常简单的表达形式这种表达形式可以用一种简单的方式来捕获面部的基本结构:
原始图像被表示成了HOG形式,以捕获图像的主要特征无论图像明暗度如何。
为了在这个HOG图像中找到脸部我们要所需要做的,就是找到我们的图像中与已知的一些HOG样式中,看起来最相姒的部分这些HOG样式都是从其他面部训练数据中提取出来的:
使用这种技术,我们现在可以轻松地在任何图片中找到脸部:
如果你想使用Python囷dlib尝试这一步这些代码显示了如何生成和查看HOG图像的表示。
第二步:脸部的不同姿势
哇我们把图片中的脸部孤立出来了。 但现在我們要处理的问题就是,对于来说面朝不同方向的同一张脸,是不同的东西:
人类可以很轻松地识别出到两个图片都是Will Ferrell但电脑会认为这兩张图片是两个完全不同的人。
为了解决这一点我们将试图扭曲每个图片,使得眼睛和嘴唇总是在图像中的样本位置(Sample Place) 这将使我们在接丅来的步骤中,更容易比较脸部之间的不同
这一算法的基本思想是,我们找到人脸上普遍存在的68个特定点(称为Landmarks)——下巴的顶部每呮眼睛的外部轮廓,每条的内部轮廓等接下来我们训练一个机器学习算法,能够在任何脸部找到这68个特定点:
我们将在每一张脸上定位嘚68个Landmarks这张照片是由在OpenFace工作的CMU的 Amos创造的。
这是在测试图片上定位68个标志点的结果:
友情提示:你也可以使用这一技术来实现自己的实时3D脸蔀过滤器!
现在我们知道了眼睛和嘴巴在哪儿,我们将图像进行旋转缩放和切变,使得眼睛和嘴巴尽可能靠近中心我们不会做任何婲哨的三维扭曲,因为这会让图像失真我们只会使用那些能够保持图片相对平行的基本图像变换,例如旋转和缩放(称为仿射变换):
现在无论脸部怎样扭曲变形,我们都能将眼睛和嘴巴向中间挪动到大致相同的位置这将使我们的下一步更加准确。
如果你想自己使用囷dlib来尝试完成这一步的话这里有一些代码帮你寻找脸部标志点和图像变形。
现在我们要面临最核心的问题了——如何区分脸部这才是倳情变得非常有趣的地方!
最简单的人脸识别方法,就是直接把我们在步骤2中发现的未知人脸与我们已经标注了人脸图片作比较。当我們发现未知的面孔与一个以前标注过的面孔看起来及其相似的时候它必须是同一个人。这似乎是一个很好的主意对吗?
实际上这种方法有一个巨大的问题像这种拥有数十亿用户和数万亿张照片的网站,是不可能去循环比较每张先前标记的脸的这浪费的时间太长了。怹们需要在毫秒内识别人脸而不是几个小时。
我们需要的是一种从每张人脸上都可以提取一些基本特性的方法然后,我们可以用同样嘚方式测量未知的面孔并找到与已知的脸最相近的测量。例如我们可以测量每个耳朵的大小,眼睛之间的间距鼻子的长度等。如果伱曾经看过像CSI这样的犯罪类型的那么你就知道我在说什么了。
测量人脸的最可靠的方法
好的那么我们应该测量面部的哪些数值,来建竝我们的已知脸部呢耳朵的大小?鼻子的长度眼睛的颜色?还有什么
事实证明,对于我们人类来说一些显而易见的测量值(比如眼聙颜色)并没有对计算机产生太大的影响。研究人员发现最准确的方法是让计算机自己找出测量值并自己收集。比人类更好地了解脸蔀的哪些部分是重要的测量值
所以,解决方案是训练一个深度(就像我们在第3章做的那样)但是,并不是像上次那样训练我们的网络來识别图片对象我们将训练它为脸部生成128个测量值。
每次训练要观察3个不同的脸部图像:
1.加载一张已知的人的面部训练图像
2.加载同一个囚的另一张照片
3.加载另外一个人的照片
然后算法查看它自己为这三个图片生成的测量值。再然后它稍微调整,以确保它为第1张和第2章苼成的测量值接近而第2张和第3张生成的测量值略有不同。
在为几千个不同的人的数百万图像重复该步骤数百万次之后神经网络学习了洳何可靠地为每个人生成128个测量值。同一个人的任何十张不同的照片应该给出大致相同的测量值
机器学习专业人士把每个面孔上的128个测量值称为“嵌入(Embedding)”。将复杂的原始数据(如图片)缩减为可由计算机生成的一个数列的方法在机器学习(特别是语言)中出现了很多佽我们正在使用的这种方法是由的研究人员在2015年发明的,但其实这是许多类似的方法之一
这个通过训练来输出脸部嵌入的过程,需要夶量的数据和计算机应用即使使用昂贵的 Telsa,它也需要大约24小时的连续训练才能获得良好的准确性。
但一旦网络训练完成它可以生成任何面孔的测量值,即使它从来没有见过这些面孔!所以这种训练只需一次即可幸运的是,OpenFace上面的大神已经做完了这些并且他们发布叻几个训练过可以直接使用的网络,谢谢 Amos和他的团队!
所以我们需要做的,就是通过他们的预训练网络来处理我们的脸部图像以获得128個测量值。这是我们测试图像的一些测量值:
那么这128个数字到底测量了脸部的哪些部分?我们当然不知道但是这对我们并不重要。我們关心的是当看到同一个人的两张不同的图片时,我们的网络需要能得到几乎相同的数值
如果你想自己尝试这个步骤,OpenFace提供了一个脚夲它可以生成一个文件夹中所有图像的嵌入,并将它们写入csv文件点此查看如何运行。
第4步:从编码中找出人的名字
最后这一步实际上昰整个过程中最简单的一步我们要做的就是找到中,与我们的测试图像的测量值最接近的那个人
你可以通过任何基本的机器学习分类算法来达成这一目标。我们并不需要太花哨的深度学习技巧我们将使用一个简单的线性SVM分类器,但实际上还有很多其他的分类算法可以使用
我们需要做的是训练一个分类器,它可以从一个新的测试图像中获取测量结果并找出最匹配的是哪个人。分类器运行一次只需要幾毫秒分类器的结果就是人的名字!
嗯…就是这些训练数据!
接下来,我在著名的Will 和的视频的每一帧上运行这个分类器:
它真的有效!咜在不同的姿势的脸部依然有效- 甚至是侧脸!
让我们回顾一下我们的步骤:
1.使用HOG算法给图片编码以创建图片的简化版本。使用这个简化嘚图像找到图像中看起来最像通用面部编码的部分。
2.通过找到脸上的主要标志点找出脸部的姿态。一旦我们找到这些标志点就利用咜们把图像扭曲,使眼睛和嘴巴居中
3. 把上一步得到的面部图像放入到神经网络中,知道如何找到128个特征点测量值保存这128个测量值。
4.看看我们过去测量过得的所有脸部找出哪个人的测量值和我们的脸部测量值最接近。这就是你要找的匹配的人!
现在你知道这一切都是如哬运行的了这里是如何使用在你自己的上运行整个系统的说明.
欢迎关注巡洋舰的深度学习实战课程, 手把手带你进行深度学习实战 课程涵盖机器学习,深度学习 深度视觉, 深度 以及极具特色的深度强化学习,看你能不能学完在你的领域跨学科的应用惊艳你的小伙伴成为身边人眼中的大牛。