三牛娱乐注册-【指定】首页
新闻详情
南京大学机器学习与数三牛娱乐-据挖掘所 ECC
作者:管理员    发布于:2019-03-24 01:13   文字:【 】【 】【

  招商主管(QQ:52986)三牛娱乐原标题:南京大学机器学习与数据挖掘所 ECCV16 视频性格分析竞赛冠军技术分享

  :COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。

  新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。

  【新智元导读】基于第一印象/表象的性格自动分析是计算机视觉和多媒体领域中一类非常重要的研究问题。近日欧洲计算机视觉大会(ECCV 2016)ChaLearn Looking at People Workshop 举办了一场全球范围的(视频)表象性格分析竞赛,来自南京大学计算机系机器学习与数据挖掘所(LAMDA)的参赛队 NJU-LAMDA 在 86 个参赛队伍中斩获第一,本文为该队 Team Director 魏秀参的经验分享。

  英文中有句谚语叫:You never get a second chance to make a first impression.(你永远没有第二个机会去改变你的第一印象。)一个人的第一印象可以用来快速判断其性格特征(Personal traits)及其复杂的社交特质,如友善、和蔼、强硬和控制欲等等。因此,在人工智能大行其道的当下,基于第一印象/表象的性格自动分析也成为计算机视觉和多媒体领域中一类非常重要的研究问题。

  本次 ECCV 竞赛提供了平均长度为 15 秒的 10000 个短视频,其中 6000 个为训练集,2000 个为验证集,剩余 2000 个作为测试。比赛要求通过对短视频中人物表象(表情、动作及神态等)的分析来精确预测人的五大性格特质,即 Big Five Traits,其中包括:经验开放性(Openness to experience)、尽责性(Conscientiousness)、外向性(Extraversion)、亲和性(Agreeableness)和情绪不稳定性(Neuroticism)。视频示例如下所示:

  竞赛数据中五大性格特质的真实标记(Ground truth)通过 Amazon Mechanical Turk 人工标注获得,每个性格特质对应一个0~1之间的实值。

  由于竞赛数据为短视频,我们很自然的把它作为双模态(Bimodal)的数据对象来进行处理,其中一个模态为音频信息(Audio cue),另一个则为视觉信息(Visual cue)。同时,需预测的五大性格特质均为连续值,因此我们将整个问题形式化为一个回归问题(Regression)。我们将提出的这个模型框架称作双模态深度回归(Deep Bimodal Regression,DBR)模型。下面分别从两个模态的处理和最后的模态融合来解析 DBR。

  在视觉模态中,考虑到对于短视频类数据,时序信息的重要程度并不显著,我们采取了更简单有效的视频处理方式,即直接将视频随机抽取若干帧(Frame),并将其作为视觉模态的原始输入。当然,在 DBR 中,视觉模态的表示学习部分不能免俗的使用了卷积神经网络(Convolutional Neural Networks,CNN)。同时,我们在现有网络基础上进行了改进,提出了描述子融合网络(Deor Aggregation Networks,DAN),从而取得了更好的预测性能。

  受到我们最近工作[2]的启发,在 DBR 视觉模态的 CNN 中,我们扔掉了参数冗余的全链接层,取而代之的是将最后一层卷积层学到的深度描述子(Deep deor)做融合(Aggregation),之后对其进行 L2 规范化(L2-normalization),最后基于这样的图像表示做回归(fc+sigmoid作为回归层),构建端到端(End-to-end)的深度学习回归模型。另外,不同融合方式也可视作一种特征层面的集成(Ensemble)。如下图,在 DAN中,我们对最后一层卷积得到的深度描述子分别进行最大(Max)和平均(Average)的全局池化(Global pooling)操作,之后对得到的融合结果分别做 L2 规范化,接下来将两支得到的特征级联(concatenation)后作为最终的图像表示(Image representation)。

  传统 CNN中,80% 的参数存在于全链接层,而 DAN 摒弃了全链接,使得 DAN 相比传统 CNN 模型拥有更少的参数,同时大幅减少的参数可加速模型的训练速度。另外,全局池化带来了另一个优势即最终的图像表示(512 维)相比传统全链接层(4096 维)有了更低的维度,有利于模型的可扩展性以处理海量(Large-scale)数据。

  此外,为了集成多层信息(Multiple layer ensemble),在 DAN 基础上我们提出了可端到端训练的 DAN+。具体而言,是对 ReLU5_2 层的深度描述子做上述同样操作,得到对应于 ReLU5_2 的图像表示,将其与 Pool5 层的 DAN 得到的图像表示进行二次级联,最终的向量维度为 2048 维。

  除 DAN 和 DAN+ 外,在视觉模态中,我们还利用了著名的残差网络(Residual Networks)作为模型集成的另一部分。

  在抽取 logfbank 和 MFCC 特征后,我们同样采取 mini-batch 形式的训练方式训练线性回归器(Linear regression)。在竞赛中,我们发现 logfbank 相比 MFCC有更优秀的预测效果,如下图所示。其纵轴为回归错误率(越低越好),其横轴为训练轮数,可以发现 logfbank 在最终的回归错误率上相比 MFCC 有近 0.5% 的提升。

  于是我们选取 logfbank 特征作为音频模态的特征表示以预测音频模态的回归结果。由于竞赛时间和精力有限,我们在比赛中未使用语音处理领域的深度学习模型。不过,这也是后续可以提高模型性能的一个重要途径。

  待两个模态的模型训练完毕,可以得到不同模态不同模型的性格特质预测结果,比赛中我们将其无权重的平均作为该视频最终的性格特质预测结果,如图:

  比赛中,我们对一个视频抽取 100 帧/张图像作为其视觉模态的输入,对应的原始音频作为抽取 logfbank 特征的语料。训练阶段,针对视觉模态,其 100 张图像共享对应的性格特质真实标记;预测阶段,其 100 张图像的平均预测值将作为该视频视觉模态的预测结果。

  经下表对比,可以清楚看到,DAN 相比 VGG-Face,由于没有了冗余的全链接层,其参数只有 VGG-Face 的约十分之一,而回归预测准确率却优于传统 VGG 模型,同时特征维度大大减少。此外,相比ResNet,我们提出的模型 DAN 和 DAN+ 也有不俗表现。此外,在模型预测速度上,DAN 和 DAN+ 也快于 VGG 和 ResNet。

  模态集成后,我们在五个性格特质预测上取得了四个结果的第一,同时我们也取得了总成绩的冠军。

  最后,我们将模型最后一层卷积/池化的特征做了可视化。可以发现 ResNet 仅仅将“注意力”聚焦在了视频中的人物上,而我们的 DAN 和 DAN+ 不仅可以“注意”到人,同时可以将环境和动作信息结合起来进行表象性格预测。另外值得一提的是,其余参赛队均做了人脸检测等预处理操作,从而将人物从视频中“抠”出,但是这样的操作反而降低了整个性格特质预测的性能。俗话说“气由心生”,一个人所处的环境(尤其是卧室、办公室等私人场所)往往可以从侧面反映一个人的性格特性。

  作者简介:魏秀参,为本次竞赛NJU-LAMDA参赛队Team Director。南京大学计算机系机器学习与数据挖掘所(LAMDA)博士生,研究方向为计算机视觉和机器学习。曾在国际顶级期刊和会议发表多篇学术论文,并多次获得国际计算机视觉相关竞赛冠亚军,另撰写的「Must Know Tips/Tricks in Deep Neural Networks」受邀发布于国际知名数据挖掘论坛 KDnuggets 等。 微博ID:Wilson_NJUer

  深度学习大讲堂是高质量原创内容的平台,邀请学术界、工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术、产品和活动信息!

  负责大型会展赞助商及参展商拓展、挖掘潜在客户等工作,人工智能及机器人产业方向

  新智元欢迎有志之士前来面试,更多招聘岗位请访问新智元公众号。返回搜狐,查看更多

相关推荐
  • 首页,和记娱乐
  • 华宇娱乐欢迎您
  • 火博-招商主管
  • 沐鸣娱乐平台-注册平台官网
  • K5-代理
  • 鸿丰娱乐平台-直属
  • 凯发k8娱乐-总代理
  • 首页开元娱乐平台
  • 首页“鸿祥娱乐挂机”首页
  • 1号娱乐;首页

  • 地址:上海市三牛娱乐资讯部
    主管:52986
    邮箱:52986@qq.com
    网址:http://www.todocn.com
    版权信息
    Copyright(C)2012-2019 三牛娱乐注册)-【指定】首页 版权所有 TXT地图 HTML地图 XML地图