阿里安全摘下AI视觉“奥斯卡”双料冠军突破行为检测技术瓶颈

天下网商 2020-07-23 17:17 抢发第一评

摘要：从实战出发进行安全基建，让安全能力和业务数字化建设实现同步，是新一代安全架构的核心理念。

网商君

一场3个小时的直播结束后，由阿里安达实验室（达摩院和阿里安全联合实验室）和华中科技大学打造的顶级AI，在3分钟内精准检测最佳商品展示片段，自动进行视频剪辑并发布。不久前，在被誉为计算机视觉领域“奥斯卡”、AI领域规模最大的会议CVPR 2020上，这项行为检测AI技术超越百度、商汤、中兴等公司的同类技术，获得了双料冠军，并比去年微软、三星的参赛成绩高出约17个百分点。

在人工智能顶会拿下双料冠军

当前随着娱乐视频、直播平台的日渐成熟，直播视频数量也出现了井喷的趋势，自动化处理视频的需求日益增长。作为自动化处理视频的核心技术之一，行为检测AI也越来越受到学术界和企业界的共同关注。

阿里安达实验室高级算法工程师张士伟介绍，在CVPR 2020关于行为检测AI的两项赛道任务中，阿里和华科大联手提出的解决方案不仅获得了双料冠军，并以平均均值精度（mAP）42.788%的性能一举打破众多顶尖科技公司、科研院校去年无法突破“40%”的瓶颈，在AI视觉领域带来新的可能。

CVPR两个赛道的数据集分别有2万个视频和5万个视频，而且后者采用的是更贴近真实生活的视频数据。这次两个赛道任务目标是，给定一段无剪切的视频，参赛AI必须检测出目标行为发生的时间区间并正确预测该行为对应的类别。以一段跳水比赛视频为例，视频中有若干参赛选手的跳水动作，每个跳水动作约4秒，AI须准确定位某位或者多位参赛选手的跳水动作。

张士伟认为，CVPR的比赛任务还面临四大挑战：第一，目标行为时常分布广，从0.5秒到400秒不等，以赛道中一个200秒的测试视频为例，1秒采集15帧图像，AI必须在3000帧图像中精确定位；第二，视频背景复杂，通常具有很多不规则的非目标行为嵌入在视频中，比如一段集会场景的视频中有许多参会者，AI必须从复杂的背景中精准定位演讲者；第三，类间差大，行为的视觉效果会因人而异，比如专业舞者和业余舞者在跳同一段舞蹈，他们的动作必然有差异，AI要能识别这是同一段舞蹈。“此外，AI检测人体动作还面临人体之间的互相遮挡、视频分辨率不够、光照、视角等变化多样的其他干扰。”张士伟说。

虽然面临上述难题，两个赛道的数据属性也不尽相同，阿里安达实验室和华中科技大学还是创造性地提出了两项AI解决方案，出色地实现了比赛任务目标。

阿里安达实验室和华科大在CVPR两个赛道的获奖证书

技术能力得益于现实场景磨炼

技术的进步往往得益于复杂现实场景的磨炼和沉淀。行为检测AI经过长时间打磨，早在阿里安达实验室的多媒体AI和安全审核等系统中布局，成为安全AI的核心组件之一。阿里安达实验室负责人薛晖介绍，优酷、淘宝直播视频等早已受益于这项顶尖技术。

行为检测AI不仅可以准确定位、分析视频中的违规行为，甚至还能预测一些行为的趋势。同时，它还可以自动检测淘宝直播中某个商品的最佳动作展示片段，自动剪辑出精华视频用于橱窗展示。

“把行为检测AI应用在实际业务场景，并在业务的打磨和考验中不断成长，，这也是阿里安达实验室打造的这项AI技术能在CVPR 2020上取得双料冠军的原因。”薛晖说。

左为时长3小时的直播视频，右为行为检测AI识别出的某单件服装展示视频

打造数字基建“安全样板间”

今年3月，阿里发布数字基建新一代安全架构。从实战出发进行安全基建，让安全能力和业务数字化建设实现同步，是新一代安全架构的核心理念。

安全技术以往大多只应用于安全风控领域。阿里安全在20多年间的发展历程中，始终坚持立足于不断创新的业务场景打造安全技术。在保障业务安全的前提下，也在为一些商业难题提供新的解决方案，为业界打造安全基建的样板。

张士伟介绍，行为检测AI在体育、直播、影视传媒和安防领域有广阔的应用前景，比如精彩动作检测、智能集锦生成、介绍商品行为，以及通用动作检测识别、多模态搜索、异常动作检测等。在护航数字基建的同时，也为多个领域的创新和提效带来更多智能化助力。

声明：该文章版权归原作者所有，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本网联系。