毕业设计之-基于改进卷积模型的人脸性别和情感分类研究应用

频道:生活应用 日期: 浏览:26

1. 摘要

当前普通卷积神经网络在表情识别和性别分类任务中面临训练流程繁琐、耗费时间较多、响应速度较慢等挑战,因此设计了一种基于深度可分卷积神经网络的实时人脸表情与性别分类方案。该方案首先通过多任务级联卷积网络检测不同尺寸的人脸图像,再借助核相关滤波技术追踪已检测到的人脸区域,从而提升检测效率。接着构建包含残差结构和可分卷积模块的深度可分网络,采用多尺度卷积核和通道融合技术形成核心卷积单元,在提取丰富特征的同时减少参数规模,实现模型轻量化。此外,运用即时反向传播可视化方法分析权重动态变化规律,评估学习特征质量。最终将表情识别与性别分类网络进行并联整合,达成表情与性别的实时分类目标。测试结果显示,该模型在FER-2013数据集上获得66%的分类准确率,在IMDB数据集的性别分类任务中达到96%的准确度。我们还将该模型部署到实际应用系统中,构建实时视觉系统验证其性能,该系统在一个混合流程中同步完成人脸检测、性别判定和情感分析三项任务。

2.相关工作

深度神经网络具备自主提取特征的能力,无需依赖人工设定特征,从而避免了人为设定特征可能带来的不足。Tang研究了卷积神经网络与支持向量机的融合方法,舍弃了全连接卷积神经网络通常采用的交叉熵最小化策略,转而运用标准的铰链损失函数来最小化边界相关的损失,在其测试数据集上获得了71.2%的识别成效。MobileNet-V2架构运用了多种粒度核卷积模块,这些模块以深度可分离卷积为核心,分支部分则配置了线性通道压缩层,针对表情特征展开区分,成功达到了70.8%的判定准确度。Li及其团队研发出一种创新性深度局部性维持的卷积神经网络方案,该方案致力于在维持区域紧密关联性的基础上,进一步扩大不同表情类别间的区分度开yun体育官网入口登录app,以此提升表情识别的精确性。Kample 等人借助搭建的级联卷积神经网络来提升表情识别的性能。徐琳琳及其团队为了解决网络训练耗费时间太多的难题,研发出一种运用并行卷积神经网络的表情识别方案,该方案实现了65.6%的识别正确度。卷积神经网络经常被视为一个封闭的系统,它将习得的特征加以隐藏,导致在分类的精准程度和无需的参数多寡方面难以取舍。Szegedy等人建议借助引导梯度反向传播的即时可视化方法,用以检验卷积神经网络学习到的特征表现。在FER-2013数据集中,准确分辨“愤怒”“厌恶”“恐惧”“快乐”“悲伤”“惊讶”以及“中性”这些情绪类别相当棘手,这要求表情解析与性别判定模型必须具备出色的稳定性,并且运算速度要快。

实时人脸表情识别_深度可分卷积神经网络_卷积在生活应用

Fer2013人脸表情数据集包含三万五千八百八十六张人脸表情图片,其中,用于训练的图片有二万八千七百零八张,公开展示的验证图片和私有的验证图片数量均为三千五百八十九张开yunapp体育官网入口下载手机版,每张图片都是尺寸固定为48×48的灰度照片,总共涵盖了七种不同的表情,这些表情分别用数字0到6来标记,具体每种表情对应的数字标签以及中文和英文说明如下:数字0代表生气,英文为anger;数字1代表厌恶,英文为disgust;数字2代表恐惧,英文为fear;数字3代表开心,英文为happy;数字4代表伤心,英文为sad;数字5代表惊讶,英文为surprised;数字6代表中性,英文为normal。

深度可分卷积神经网络_实时人脸表情识别_卷积在生活应用

IMDB数据集收录了众多公众人物的面部照片、年龄数据以及性别信息,这些资料分别源自IMDB网站和WiKi平台,共计汇集了524230张名人肖像及其相应的年龄与性别记录,其中460723张图像信息取自IMDB,另外62328张则来自WiKi。本次实验所用的 IMDB 性别数据集中,有四十六万零七百二十三张 RGB 图像,这些图像都标明了属于女性类别,或者属于男性类别。

3.模型设计与实现

这个架构包含六个卷积单元和三个最大下采样单元,每个卷积单元在执行卷积运算后都应用了等宽填充,当卷积过滤器以步长为1移动时,图像的尺寸保持不变,为了稳定网络层中输入数据的均值和方差并防止梯度消失现象,会将每一层神经网络中任意神经元的输入值调整至均值为0、方差为1的相对规范的正态分布,通过实施批量标准化技术,在每一层后面增加一个批量标准化处理,并采用ReLU函数进行激励,然后接续三个全连接单元和一个输出单元的Softmax函数,在全连接单元之后运用了Dropout技术,在训练期间随机舍弃部分神经元以避免模型过拟合。本文所构建的卷积神经网络构造如图所示,其中c代表卷积核的尺寸,n表示卷积核的个数,s说明卷积的间隔,p指池化所用的窗口尺度,same意味着采取same的填充方案,ReLU作为激活单元,Sep-Conv即为深度可分卷积

该网络结构由以下部分组成:

处理完成后的 64 × 64 像素的学生面部图像,是系统的初始数据。

c1层运用64枚11×11的卷积核对图像实施卷积运算,意味着每个神经元对应一个11×11的区域,以4为步长进行扫描,采用same模式处理边界填充,并采用ReLU作为激活函数

s1层运用了128个3乘3的窗口对图像进行压缩,压缩方式为选取最大值,间隔为2。c2层使用了192个5乘5的滤波器,间隔为1。

s2层级运用了192个3乘3尺寸的窗口执行池化操作开yun体育app入口登录,采取最大值选取策略,间隔为2进行下采样。

6)c3层使用256个3 × 3的卷积核,步长为1。

7)c4使用了256个大小为3 × 3的卷积核,步长为1。

8)c5使用256个大小为3 × 3的卷积核,步长为1。

9)c6使用深度可分离卷积块。

s3 使用 3 × 3 的窗口执行池化操作,采用最大值选取方法,间隔为 2 进行下采样。

采用四千零九十六个神经元对二百五十六张六乘六的特征图实施全连接处理,然后执行一次随机失活,从四千零九十六个节点中随机舍弃部分节点信息,从而形成一组新的四千零九十六个神经元。

这个网络由四个剩余深度可分离卷积构成,每个卷积后面都接有批量归一化步骤和 ReLU 激活环节。最后这一层运用 Softmax 函数来生成预测结果。图示展示了整个最终的网络构造,并将其命名为迷你Xception。

卷积在生活应用_实时人脸表情识别_深度可分卷积神经网络

这个系统在性别识别方面达到了百分之九十五的正确率,同时在FER-2013库的情感分析上也能做到百分之六十六的准确水平。整个最终模型的参数信息能够被压缩进八百五十五千字节大小的文档里。为了提升运行效率,对计算量进行了压缩处理,确保了即时响应的能力,而且支持将两个系统组合起来,对单张图片进行联合处理。

4.应用实现

表情与性别识别系统里,先载入预先训练完毕的表情与性别分类器及相关参数,然后从待检测人脸图中截取一帧,定位表情与性别坐标,并将图像像素调整为64乘以64。接下来,人脸照片通过系统进行推演,对照已学习好的系统里的参数,算出每个情绪和性别归属的评分,得分最高者就是判断结果,表情与性别识别的图像展示见下文。

卷积在生活应用_实时人脸表情识别_深度可分卷积神经网络

5.结论

关于卷积神经网络训练难度大、耗时长、响应慢等不足,该文设计了一种运用深度可分卷积神经网络的即时表情与性别判断方案,借助深度可分离卷积的轻量级网络构造,大幅降低模型参数规模,与常规全连接CNN相比,参数总量锐减至其八十分之一最终,在FER-2013数据集中,对表情的人脸识别成功率为66%。在IMDB数据集里,识别准确度达到了96%。处理单张人脸图像需要(0.22±0.05毫秒)。整体处理能力为每秒80帧。测试结果显示,本方案构建的体系适合用于处理不同种类的识别任务,并且能够持续进行即时分析;它能在同一个分析单元里完成人脸的定位,并且可以判断人的性别以及识别人的情绪状态。未来的研究计划将增加更多种类的情绪判断,扩大表情素材库的规模,在现实环境采集的数据集上开展训练,以此提升系统的判定精确度。

网友留言(0)

评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。