思图场景算法团队在2022年的ABAW表情识别挑战赛中获得一项冠军及一项亚军
近日,第三届人脸表情国际挑战赛(The 3rd Workshop and Competition on Affective Behavior Analysis in-the-wild,简称ABAW)公布了比赛结果,思图场景在与全球129支参赛队伍的竞争中脱颖而出,获得了一项冠军及一项亚军,这是继EmotiW2018、EmotiW2020之后思图场景再度全球夺冠,展现了其在情感计算领域深厚的技术实力。
本届竞赛在今年的国际计算机视觉与模式识别会议(CVPR)上举办,CVPR是由总部位于美国纽约的电气与电子工程师协会举办的一年一度的学术性会议,是世界三大顶级计算机视觉会议之一(另两个是ICCV和ECCV)。
ABAW竞赛致力于解决自然情境下计算机对人的情感行为进行分析的问题,并以此提升人机交互系统的场景应用能力,目标是创造出能够理解人的感觉、情绪和行为的机器和机器人,从而让机器能够以"以人为本"的方式与人类互动,并有效地作为人类的数字助手。
由于现实世界的环境是不受条件控制的,所以这届竞赛所使用的视频数据相较往届竞赛呈现更加多样的视频录制条件、背景和显示方式。同时,为了考验算法对不同拍摄环境、不同人群等情况的适应能力(迁移学习能力),竞赛数据的样本分布极不均衡,增加了竞赛难度。
二维情绪识别(Valence-Arousal emotion estimation)赛冠军
思图场景以一致性相关系数(CCC)指标60.1的成绩获得了该项竞赛的冠军。该项竞赛通过对画面中人物表情的判断对人物进行二维情绪(Valence效价-Arousal唤醒度)度量,相较于7种基础情感(愤怒、厌恶、恐惧、快乐、悲伤、惊奇和中性)的识别,二维情绪识别能够更精准的定义情绪、感知自然人机交互中动态复杂细微的情感状态,可以应用于满意度检测、欺诈情绪分析等场景。
参赛队伍需要对548支来源于现实场景的视频进行分析,通过视频中的图像、人物、声音来预测指定人物在连续空间下的情感。相较上届竞赛,本届竞赛的数据标签极度不平衡且标签噪声多。思图场景算法团队利用音视频多模态情感计算、维度情绪理论以及非接触式面部情感检测等技术对视频中的时间上下文进行建模,最终夺冠。
面部动作单元识别(Facial Action Unit Detection)赛亚军
在该项竞赛中,思图场景以49.82的成绩(相较第一名0.07%的微弱劣势)获得了亚军。该项竞赛通过对人脸国际标准组织定义的人脸运动单元系统(AU)进行捕捉并分析,得出人脸可能的表情。面部动作单元检测分析技术在反欺诈、满意度检测、汽车驾驶辅助(如探测驾驶员是否瞌睡)等场景有重要应用。
除数据标签极度不平衡和标签噪声多的竞赛难点外,该项赛事还面临训练数据量大的问题。思图场景算法团队基于在金融领域长期深耕的技术经验及大规模GPU集群应用,并通过带权重的BCE Loss、multilabelloss、FPN及SSH模块来应对这些问题并夺得了亚军。
基于泛金融场景面向更广阔的应用空间
思图场景已经在双录、面签、面审等金融业务场景解决方案中深度应用情感计算技术多年,在消费信贷、人寿保险、互联网财险及银行零售业务场景中,情感计算技术已经显现出其在金融视频业务人机交互、人机协作质检领域的商业价值。
此外,思图场景还通过与清华等知名学府的学术交流不断提升情感计算技术的场景应用水平,通过大数据、心理学等技术不断丰富算法维度。目前,思图场景情感计算技术正立足于金融向教育、辅助驾驶、零售营销以及跨学科学术研究等应用领域拓展,将为更多行业带来人机交互的跨越式提升。