2016年12月1日,教育部公布了2016年度高等学校科学研究优秀成果奖(科学技术)的授奖项目结果,博云视觉创始人陈杰与北京大学的联合科研成果:《视觉特征紧凑表示方法及高性能图像搜索技术》获得技术发明一等奖。
研发攻关,突破带宽、计算复杂度瓶颈
图像(以及作为运动图像的视频)是人工智能、计算机视觉与多媒体技术等方向的重要研究对象。智能前端(如智能手机、智能摄像头、智能眼镜)具有便捷的图像采集功能,催生大量的图像。视觉搜索(基于视觉特征的图像搜索)结合手机等移动终端便携性,正在变革移动互联网的用户体验,使得图像输入日益成为移动搜索用户“解放双手”的重要交互模式。在安防领域,智能监控对图像视频大数据处理与分析技术的依赖日益显著,期待检测与识别准确率更高、带宽占用更小的视觉特征表达。通过智能前端抽取紧凑视觉特征,并将特征传输至后端进行内容分析,可以大幅降低带宽占用,突破图像视频大数据应用平台面临的数据汇聚与计算瓶颈,并提升大规模图像视频识别与检索的性能。
传统图像搜索采用复杂的视觉特征和多类型的索引,在特征紧凑性、特征抽取复杂度、特征规范化和索引可扩展性方面存在诸多局限性,影响了视觉搜索技术的大规模应用与推广。针对以上方面,该发明技术突破了四个关键问题:如何设计视觉特征紧凑表示、如何高效抽取紧凑视觉特征、如何构建大规模图像索引模型、如何在多设备平台上兼容多样化搜索系统和图像特征数据库,开展了关键核心技术攻关,形成了以发明专利、国际标准、高水平学术论文以及产业化应用为主要形式的“视觉特征紧凑表示方法与高性能图像搜索技术”系统性成果。
自2010年起,陈杰作为主要技术骨干全面参与了低比特、低复杂度、高性能的局部视觉特征提取、聚合、压缩,交互数据规范化模型,以及移动端交互查询等技术的研究。全程参与了紧凑视觉描述子国际标准MPEG CDVS的制定。主要提出了基于分块尺度空间表示的低复杂度兴趣点检测技术和基于多级矢量量化的局部特征压缩技术,突破了传统局部视觉特征提取的高复杂度、大尺寸的局限。相关特征表示和索引技术被国际标准MPEG CDVS采纳为核心技术,解决了图像内容描述与检索的标准化语言问题。已经在百度识图、手机百度、微信智能开放平台中得到应用。
推动底层技术产业化,图搜更多可能
2015年底陈杰带领他的核心研发团队创建博云视觉,针对智能商业和安防监控行业,围绕对海量图像视频数据的理解需求,依托于既有的紧凑视觉特征国际标准,深度融合人工智能技术,建立高性能图像搜索分析平台。市场方面,博云视觉将基于紧凑视觉特征的图搜技术开放成API,现已部署在阿里云、华为云、京东云,用户可直接调用集成图搜功能。
深度融合特征,持续深耕技术
作为一家技术驱动型公司,在研发方面,博云视觉以标准化芯片级算法应用研究为导向,持续深耕优化视觉搜索与分析的底层算法技术。同时将底层生物特征表达结合基于深度学习技术的语义特征,使视频目标对象搜索的平均准确率提高了10%以上。并在第116次ISO/IEC JTC1运动图像专家组MPEG国际标准会议上博云视觉联合北京大学、南洋理工大学共同提交了提案《Improved retrieval and matching with CNN feature for CDVA》,各国专家对该提案给予了高度评价,针对融合深度学习特征与底层视觉特征专门设立了核心实验,期望未来进一步解决深度学习模型压缩和深度学习特征编码等问题,以此作为未来CDVA技术的导向性探索。
正如图像搜索应用在各领域的扩张一样,博云视觉成立满一年之际,其技术已经在移动互联网、艺术品、安防监控、辅助驾驶、综合电商、旅游等多个领域得到了广泛应用。已与北京大学、新加坡南洋理工大学、华为、阿里巴巴、中国美术家协会、尚易德等达成战略合作。
您也可以关注我们的官方微信公众号(ID:ctoutiao),给您更多好看的内容。