pg下载 孙启超:卷积神经网络在人脸识别技术中的应用 | AI研习社第51期猿桌会

频道:生活应用 日期: 浏览:2

咱今儿把卷积神经网络于人脸识别技术里头的应用跟大伙分享一番。首先,对深度学习跟机器学习二者间的关系予以介绍。人工智能涵盖机器学习这个子领域,机器学习又含有表示学习(一种能够自动提取特征的学习形式),而深度学习乃是表示学习里极具代表性的一类学习。我们今儿要讲的 CNN 也就是卷积神经网络,是深度学习当中的一种。

深度学习与卷积神经网络的关系_卷积神经网络在人脸识别技术中的应用_卷积在生活应用

关于机器学习,其核心思想是借助特征去学习所需知识,于是出现新工作,即专门从事特征工程的一类工程师,特征工程的优劣会对机器学习最终效果产生影响,科学家想能否让机器自动学习特征,无需人做特征工程,答案是可以,表示学习就是利用特征来学习。

深度学习的运用,实际上极为简易,乃是端对端的学习模式,仅需历经三步:其一,将数据给予其(机器);其二,等待深度学习完成处理;其三,获取结果。

下面,我们来看一下我们今天要讲的卷积神经网络的发展历程:

• 1980年的时候,科学家提出了“神经认知”,而如今人们认为,“神经认知”它是卷积神经网络的前身。

1998年,有两位科学家提出了基于梯度学习的卷积神经网,其名为LeNet。它属于首个大规模应用的图像识别。那时美国存在大量的邮寄工作,这需要专人去做报邮编、寄送地址等工作。若靠人工去做,效率会很低,一个人一秒能识别几个呢?就算识别速度很快,然而人的速度越快,其错误率或许就能越高,所以这个LeNet就被应用于手写数字的字符识别,而且错误率仅有1%,能够大规模进行运用。

2012年,Hinton团队提出卷积神经网络Alex-net,该团队参与了李菲菲教授的Image Net比赛,取得了冠军。当时,它凭借比第二名提高12%的准确率,处于遥遥领先的态势。以往,第一名比第二 名通常仅提前一、二个百分点,三、四个百分点便已算多,然而此次,这个团队一下子领先了十二个百分点。这是由于,Alex-net在首次运用时,采用了ReLU激活函数,采用了最大池化,采用了DROP Out,还采用了GPU加速,这些均属于新技术。

在2014年的时候,Google提出了具备可反复堆叠、高效卷积神经网络结构这一核心思想的Inception-net,它成功地把错误率降低到了Alex-net的一半。

2015年,微软的ResNet成功训练出了152层的深层次网络,以往的一些神经网络,于这边进行输入,中间存在很多神经元,可仅有一层,而增加层次的技术,在那时难以实现突破,微软的这个ResNet一下子增加到152层,这算得上是一个突破,与此同时,它将错误率降低至3.46%,再度刷新了记录。

在此之后,基本上每年,甚至每隔几个月,就会出现新一代的技术,比如说新的网络结构,还有更深的网络的训练方法等等。可以这么讲,是CNN引领了此次深度学习的浪潮。

那卷积神经网络到底是什么?它的核心是卷积操作。

可以供大家参考的是,在图的左上角存在着一个呈现为绿色的、棱长是 5 的正方形立体状矩阵,在这个绿色矩阵当中处于较明亮颜色的区域是一个棱长为 3 的正方形立体状卷积核。这个处于较明亮颜色区域所起到的作用pg下载渠道,是针对覆盖在矩阵之上的各个数字通过赋予不同权值进行求和运算,经过如此方式计算而得出的数字,也就是我们能够瞧见的处于紫色的区域,将会被放置进一个全新的矩阵里面。

深度学习与卷积神经网络的关系_卷积神经网络在人脸识别技术中的应用_卷积在生活应用

然后看着右上角的第二张图片,黄色的区域朝着右边移动一位,这便是一步,这个「步」所指的是步长,它是 CNN 里的另一个参数,其中一个参数是卷积核,这儿的步长被设定为 1 步。移动 1 步之后,同样针对黄色区域开展加权求和,又得到一个新的数,这个新数与第一个数一同被放置到紫色区域。

能够把整个黄色区域视作一个相框,其大小、长宽均是固定不变的,顺序是从左往右,进而就是从上往下,移动三次,会依次出现三个全新的数,然后再依次放置到下一个矩阵里展开计算。这属于一种局部操作,原始数据(5*5的输入)历经9次卷积,便能够得到卷积后的结果。这个结果被称作卷积特征,它是一个全新的3*3矩阵,而这个矩阵又作为下一层操作的输入,并且开展一些池化操作。

接下来,我们来查看一下 CNN 的工作流程,先瞧一瞧几个核心概念,首先是我们刚刚所讲述的卷积操作,其次是池化操作,这一操作同样是极为关键的,最后便是它的激活函数、全连接层以及目标函数。

随后再瞧下方这张长图,第一步pg下载官方认证,我们先将原始数据输入给它(机器),接着以诸如卷积层、池化层、激活函数的组合形式开展卷积操作,之后,再同样运用这种组合形式进行下一组卷积操作,就这样持续循环,一直到把所有特征都抽取出来,接着,抽取出来的所有特征与全连接层进行对接,得出预测的值,并且与目标值进行对比,最后,机器会对二者的差值进行修复,并且重新训练,这是一个完整的工作流程。

卷积神经网络在人脸识别技术中的应用_卷积在生活应用_深度学习与卷积神经网络的关系

接着,我们再去瞧一瞧卷积操作,它不存在参数哦,我们仅仅只需要为它设定一下最大池化以及平均池化。最大池化呢,特指把覆盖区域当中的最大值给提取出来,它的目的在于把最为显著的特征提取出来,把一些并非那么明显的特征给忽略掉。

卷积在生活应用_卷积神经网络在人脸识别技术中的应用_深度学习与卷积神经网络的关系

卷积操作有三大特点:

第一个是特征不变性,我们展开想象,一张图片经过卷积之后,于图片的右下角呈现为一条直线,倘若它在图像左上角所识别的卷积特征跟直线的卷积特征一致,那么左上角的这个图形必然也是一条直线,原因在于特征相同,这同样属于卷积神经网络当中的一个特性,也就是两个特征的相对位置相较于它们在图片里的绝对位置更为重要。

第二个特点是特征降维,我们上面所使用的是5*5的矩阵,实际来讲,10024*798的图片像素会消耗极大的性能,并且其中大部分属于没必要的计算,最大池化是把最显著的特征提取出来,舍弃那些不太明显的特征,以此节省一些计算资源。

第三个特点在于防止过拟合,这是由于所抽取的均为最为明显的特征,所以能够防止过度拟合。

我们接下来再仔细瞧瞧激活函数。那些曾经涉足过机器学习领域的同学们,有可能会碰到另外一个激活函数,也就是 sigmoid 函数,它呈现为一条取值范围处于 0 到 1 之间的曲线。

我们所要讲的这个 ReLU 函数,它能够被表示成下图当中的蓝线,它实际上属于一个分段函数,当你给予这个函数的值小于 0 的情形下,无论负多少,都会返回一个 0,当你给予它大于等于 0 的值的时候,不管给出的究竟是什么值,它都能够返回本身(X),这实际上是一个颇为简单的函数。

深度学习与卷积神经网络的关系_卷积在生活应用_卷积神经网络在人脸识别技术中的应用

卷积神经网络在人脸识别技术中的应用_深度学习与卷积神经网络的关系_卷积在生活应用

那激活函数到底有什么用?

比方来讲,我手中握着一根针,要去扎向另一只手,起初距离隔得很远,我不会感觉到疼,接着针缓缓朝着我的另一只手靠近,直至最终扎到了,我手上的这块神经便会告知我的大脑,我的手被扎到了——我就会感觉到疼,这就等同于「激活」了。

针和我的另一只手之间存在一个特定距离的界限,当这个距离小于了该界限,并且最终完全靠近贴合在一起时,我的神经会立刻向我的大脑传达(疼)的信息,进而激发我的“疼感”,激活函数正是基于此原理。机器平常训练所得到的某些内容,要是未达到界限,特征便不会被激发;然而要是超过了界限,特征就会被激发并输出。

接着往下深入,我们会从一个全面的整体视角去审视卷积神经网络的运行情况,首要先瞧一下下面呈现的这张图,此图所展示的是一个字母 A,随后要展开卷积操作,紧接着依据预先设定好的卷积核以及步长探寻卷积核的特征,最终将所有被激活的神经元与最后的全连接层逐一进行精准对应,借助矩阵乘法,查看它们是不是真的被激活了。

深度学习与卷积神经网络的关系_卷积神经网络在人脸识别技术中的应用_卷积在生活应用

整个 CNN 里,全连接层所起到的那个“分类器”作用,通常是在最后才得以实现的。

接着是目标函数,在卷积神经网络里最为常见的回归问题,所采用的均是欧式(Euclidean)距离,其呈现的结果是:

。我们通常选用最右边之处的公式,此公式乃是求和公式,自 1 起始取至 n,对两个数相互之间的差值予以计算。

针对这个欧式距离而言,它究竟能起到什么样的作用呢?举例来说,存在两个目标,若彼此间的距离处于较近的状态,那么它们之间的相似度相对就会比较高。基于此,借助求取欧式距离这种方式,我们能够对它们是否近似作出判断。

那关于卷积神经网络的基本原理,以及几个核心概念,都讲完了。接下来,我们要进入人脸识别环节,这个环节总体分为四步:第一步呢,是人脸边框检测,第二步是图像校准,第三步是把图像变成向量,第四步是向量对比。

第一步进行人脸边框检测,在一张图片之上,不排除存在不止一张脸的情况,而是存在有多张脸的状况。无论究竟有多少张脸,我们都要先将符合人脸特征的边框找寻到,并且把该边框予以截取出来。

如何进行截取呢,要先定位,定位是依据人脸的特征来开展的,如同刚讲的那样,要是某一个位置存在一只眼睛,并且其对称的地方同样存在一只眼睛的话,那么便可找到眼部位置,进而也能够找到眼角的部分,在人脸识别这个范畴当中,边框特征的范围极为关键,乃是由于机器凭借这些,就能够划出完整的脸部位置,机器当作参照的主要的特征其中之一是下巴,这是因为嘴角能够张开或者闭合,然而下巴一般而言并不会有太大的变动,第二个方面是眉毛--一旦找到了眼睛,那么眉毛就比较容易找到了。第三个是鼻梁、鼻尖,上、下嘴唇。

当把这些特征全部找到之后,便要去寻得脸的边框,脸的边框存在多种可能,有方脸的情况,有瓜子脸的状况,还有圆脸的情形,机器会在脸部边框之上生成一些点,随后运用图形边框,像是圆边框这般的去开展对比,一旦发现存在一点差异,它就会持续不断地调整系数,一直到完全契合为止。

深度学习与卷积神经网络的关系_卷积神经网络在人脸识别技术中的应用_卷积在生活应用

但在进行截取这个动作的时候,脸的附近部位是需要留出一定的距离的,绝不能够完全依照边框去做截取行为,比如说,像上图里的头发那一部分,(人)有可能是佩戴了帽子的,所以机器是不能够完成完全的截取工作的,而是要在其周围留出一定的空间,之后再把图片截取出来。要是一张脸存在多个点的情况,那就截取出多个人脸的边框。

进而的第二步是校准图像,此概念实际上与计算机处理数据的思路相符,无论你给予机器的是图片、语音、数字、字符串,又或者是其他一些别类的数据,它都会把那些进行一种转化,变为计算机能够识别的数据。

人脸校准同样如此,要是给机器的头,不管是处于歪头状态,还是低头状态,亦或是仰着头的状态,其位置都并非正的,那么就先把脸边框截出来,针对每个点去进行定位,就如同下图里的绿点那样,接着依据点来定位出一个坐标,将这个坐标跟真正摆正的脸的坐标做对比,二者相差的角度正是头歪的角度,随后把图像反向旋转一回,图像就变为正的了。

卷积神经网络在人脸识别技术中的应用_深度学习与卷积神经网络的关系_卷积在生活应用

这个效果具备相当大的有用性情形,原因它使得能减少非必要的误差情况。机器学习呈现相同状况,当你给予它一些没有经过处理状态的数据开展训练行动进程时,它最终训练得出的结果不但存在有可能不属于良好范围的状况,还存在有可能结果是相反模样的状况,为你做出的决定全部都是错误的情形。比如说去做商品智能推荐这一行为,如果输入的数据没有经历过处理流程,甚至所设定的维度都是属于没有用途性质的,机器有可能会朝着错误的方向去开展推荐举动的。

所以,对于数据开展的处理极为关键,得去除掉那些并非必要的误差,并且要将全部的算法都归置于切实具备效用的计算之上,这般的思想相当重要。

排在第三位的是图像转向量,这个图像转向量究竟是怎样予以生成的呢,是经过卷积、池化操作之后所生成的图像向量,向量具备大小同时也拥有方向,要是两个向量之间的夹角极其微小,那么这两个向量就会极为接近。

借助比较向量彼此之间的夹角,能够判定两个目标是不是相似。比如说,我们要判断与计算机视觉有关联的两篇文章是不是相似,首先我们得找出两篇文章,把其中一篇文章里的关键词给提取出来,一个关键词就是一个向量,当所有关键词都被找出来之后,计算一下向量的方向跟大小。另外一篇文章也开展同样的操作,最后机器再针对两组向量予以对比,要是几乎重合,那就表明两篇文章的内容极为相似。向量所具备的作用,在机器学习当中是相当重要的。

图像转变为向量后,便要将此向量计算得出,接着与目标函数之向量进行对比,随后运用余项定理求出它们间的夹角,前面两篇相似文章开展对比时,运用的便是这一定理。此向量和目标向量并非一定要全然重合,夹角处于很小情形下,只要处于阈值范围之内,就能判定二者相似pg下载官方版打开即玩v1022.速装上线体验.中国,而阈值皆是人工预先设定好的。

最后的那一步是向量对比这一事宜。有着相同的人脸,与之对应的向量距离会小。有着不同的人脸,向量距离自然而然就会大。

向量计算里存在着一个名词,这个名词叫做内积,内积是对应元素乘积的求和,通过内积能够计算出刚才上面所提及到的夹角,公式是这样子的,夹角越小,就表明两张人脸越相似。

网友留言(0)

评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。