深睿医疗科研成果又双叒叕登上世界顶级会议，5篇论文入选ICCV　2019

2019-08-22 16:45 抢发第一评

近期ICCV 2019论文收录工作已经结束，深睿研究院共有5篇论文被收录，其中一篇更是被选为口头报告（Oral）。ICCV全称是IEEE International Conference on Computer Vision，与计算机视觉模式识别会议（CVPR）和欧洲计算机视觉会议（ECCV）并称计算机视觉方向的三大顶级会议。由于ICCV在世界范围内每两年召开一次，在论文投稿和录用上竞争异常激烈，上一届ICCV 2017，共收到2143篇论文投稿，其中仅621篇被收录，接收比例为28.9%。而就今年官方公布的数据来看，大会共计收到投稿4328篇，与上届相比，整体稿件数量翻倍，优质论文的竞争更为激烈，最终收录1077篇，接收比例为24.8%。

ICCV的论文集往往代表了国际计算机视觉领域最新的发展方向和趋势。今年深睿医疗入选的5篇论文主要研究方向既包括医学影像分析也包括计算机视觉基础方法，其中2篇论文是人工智能医疗应用领域具有创新性突破的科研成果，将会进一步推动深睿医疗Dr.Wise^®人工智能医学辅助诊断产品的不断创新和发展，促使人工智能技术更好地为临床服务。

其中一篇题目为“Learning with Unsure Data for Medical Image Diagnosis”的论文，由深睿医疗与北京大学、首都医科大学和微软亚洲研究院共同进行研究。本文主要解决的是如何更好地利用非确定性医疗标注数据进行诊断模型训练。

在临床场景中，当疾病尚处于早期阶段时，因为缺乏足够的信号和信息，仅基于图像的疾病预测，难以对某些病例给出确定性的“疾病/正常”标签，这类样本被称为“不确定”数据。但“不确定”并不意味着数据是无效的，临床上经常通过建议患者进行后续检查，进而获得最终的临床诊断结果，这就避免了因为不谨慎预测可能造成的不可逆转的医疗事故或损失。然而，当前的机器学习方法大多忽略了“不确定”数据，主要针对“疾病和正常”两类样本数据进行建模，导致对“不确定”数据不能进行更好地识别。

为了解决上述问题，本文提出了“学习不确定数据”问题，并将其建模为序数回归问题，从而提出了统一的端到端深度学习框架，同时从框架设计上还考虑了1）结合代价敏感参数来减轻数据不平衡问题，以及2）通过在训练程序中引入两个参数来执行保守和积极的策略。实验表明，在阿尔茨海默病（AD）早期诊断和肺结节的疾病预测任务中，使用不确定数据进行学习具有非常明显的优势和很高的有效性。

不确定数据模型框架

另外一篇论文“Align, Attend and Locate: Chest X-ray Diagnosis via Contrast Induced Attention Network with Limited Supervision”是采用弱监督学习技术进行胸部X光病灶的检测，众所周知，由于胸部X光片在医院的门诊/急诊检查以及体检筛查中非常普遍，所以基于胸片异常征象的自动检测识别方法对胸腔疾病的早期诊断具有重要的临床意义。而且对于医疗场景异常征象的分类以及定位相对于单纯的征象分类具有更强的临床价值和可解释性，但是受限于数据标注成本过高的原因，目前可公开获取的高质量标注数据集数量严重不足，使得征象定位的准确率目前还比较低。

本文正是主要聚焦在征象分类+定位这一问题上，利用胸片结构高度相似的特点，将阳性样本和阴性样本配对，在高层语义空间利用二者差异产生的注意力机制(Contrast Induced Attention)对病灶的潜在位置给予引导。同时，针对胸片尤其是床旁片拍摄角度、距离等不同造成的成像差异，借鉴风格迁移算法中常用的感知损失函数(Perceptual Loss)，训练了一个输出校正参数的对齐模块(Alignment Module)，能够将所有胸片对齐校正到统计意义上的标准结构胸片(Canonical Chest)。在位置标注非常有限的Chest X-ray 14数据集上，将征象分类和定位准确率带来了显著提升，超过当前最优算法。

算法流程：首先，对齐校正模块通过仿射变换将配对的阳性阴性样本统一对齐到标准胸片的视角；然后，阳性和阴性样本二者差异产生的注意力机制施加在阳性样本的高层特征空间；最后，识别和定位的主线输出征象的类别和位置信息。

本次的入选论文中也有三篇是深睿研究院在基础计算机视觉领域的科研成果，其中最值得一提的是作为口头宣讲的论文“Dynamic Graph Attention for Referring Expression Comprehension”。Referring Expression Comprehension（指称语句理解）旨在根据给定的自然语言描述在图像中定位目标物体，其中，指称语句不仅直接描述目标物体也可能描述其与其它物体的关系。本文作者从语言驱动视觉推理的角度去探索这一复杂的多模态问题，提出的动态图注意力网络同时建模指称语句的语言结构和图像物体之间的关系，并将语言结构作为多步视觉推理的指导信息。实验结果表明，动态图注意力网络不仅比现有方法拥有更高的预测精确度，还通过逐步定位复杂语句描述的目标物体，让视觉推理过程更具可解释性，更容易被可视化。另外两篇论文则是在视频显著物体检测和三维人体姿态估计方面的创新性研究。

ICCV 2019入选的五篇论文：

Jingyu Liu, Gangming Zhao, Yu Fei, Ming Zhang, Yizhou Wang, Yizhou Yu. “Align, Attend and Locate: Chest X-ray Diagnosis via Contrast Induced Attention Network with Limited Supervision.” IEEE International Conference on Computer Vision (ICCV), Seoul, October 2019.

Botong Wu, Xinwei Sun, Lingjing Hu, Yizhou Wang. “Learning with Unsure Data for Medical Image Diagnosis.” IEEE International Conference on Computer Vision (ICCV), Seoul, October 2019.

Hai Ci, Chunyu Wang, Xiaoxuan Ma, and Yizhou Wang. “Optimizing Network Structure for 3D Human Pose Estimation.” IEEE International Conference on Computer Vision (ICCV), Seoul, October 2019.

Haofeng Li, Guanqi Chen, Guanbin Li, Yizhou Yu. “Motion Guided Attention for Video Salient Object Detection.” IEEE International Conference on Computer Vision (ICCV), Seoul, October 2019.

Sibei Yang, Guanbin Li, Yizhou Yu. “Dynamic Graph Attention for Referring Expression Comprehension”（Oral Presentation）.IEEE International Conference on Computer Vision (ICCV), Seoul, October 2019.

声明：该文章版权归原作者所有，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本网联系。

您阅读这篇文章花了0秒

转发这篇文章只需要1秒钟哦