多次问鼎NuerIPS、MRQA等国际顶级比赛，百度NLP技术到底有多强？

AI前线 2019-09-20 17:59 抢发第一评

作者 | 孟夕

采访嘉宾 | 吴华

AI 前线导读：人工智能技术的发展尤其是深度学习技术的成功运用，推动自然语言处理（NLP）进入了高速发展阶段。NLP 目前也是应用范围最广的人工智能技术之一，已在智能搜索、智能客服、智能助手、智能推荐等方面得到了大规模应用。

那么，NLP 在 2019 年有哪些最新技术进展和落地应用？未来，NLP 又将怎样发展？这里，我们有幸邀请到了百度 NLP 首席科学家吴华博士，来给大家就 NLP 相关技术点分享宝贵经验，希望可以带给你一些启发和思考。

作为 NLP 首席科学家，吴华在百度这些年都做了啥？

吴华，百度技术委员会主席、百度自然语言处理首席科学家。主要研究领域包括自然语言处理、知识图谱等。吴华博士曾担任自然语言处理领域国际会议 ACL 2014 年的程序委员会主席，是中国本土企业首位 ACL 程序委员会主席。曾被评为福布斯“AI 杰出女性”、“杰出工程师”、“十佳中国电子学会优秀科技工作者”，并入选“北京市百千万人才工程”、“青年北京学者”。获国家科技进步奖二等奖 1 项、中国电子学会科学技术奖一等奖 4 项、中国专利银奖 1 项。

吴华在百度的主要工作职责有两个：负责百度语言与知识技术体系的技术规划、技术研发与技术应用，百度的语言与知识技术包括两个部分：自然语言处理与知识图谱。同时，也是百度的技术委员会主席，主要职责是制定工程师技术职称标准与评定，培养工程师的技术能力，引导工程师成长。

百度在 NLP 领域的最新技术发展

技术进展

作为最早关注并将深度学习应用于自然语言处理（NLP）的科学家之一，吴华表示百度 NLP 的技术进展涉及到语义表示、阅读理解、机器翻译、人机对话、智能写作等多个方面：

（1）语义表示是 NLP 最基础也最重要的任务

近两年，无监督预训练语言模型给基于语义表示的自然语言处理技术带来巨大突破。百度研制的持续学习语义理解框架 ERNIE，一方面引入海量语料和包含词汇、句法、语义等不同层次的多元知识，学习更好的语义表示，一方面通过构建多任务学习的预训练任务，持续提升模型的泛化能力和应用效果。借助百度飞桨深度学习平台多机多卡分布式训练优势，实现工业级规模数据的高效训练，在语言推断、语义相似度、命名实体识别、情感分析、问答匹配、阅读理解等语言理解相关的 16 个任务上全面超越业界最好方法。

（2）阅读理解

阅读理解技术是衡量机器理解人类语言综合水平的重要方式，百度在该方面不断创新，先后提出了基于注意力机制的多文档校验模型 V-NET，文本表示和知识表示的融合模型 KT-NET，以及基于多领域预训练和知识蒸馏的阅读理解模型 D-NET，在 DuReader、MARCO、ReCoRD、MRQA 等多项机器阅读理解评测集和比赛中夺冠。

（3）机器翻译

在 2015 年发布大规模互联网神经网络翻译系统以后，这两年更注重语音到语音的同声传译系统的研发，提出了基于联合向量编码的语音 - 文本联合语义表示方法，全球首个语义驱动的上下文感知机器同传模型，实现了高精准、低延时的工业级机器同声传译系统度同传，同传效果媲美人类翻译。

（4）对话

百度发布了理解与交互技术平台 UNIT（Understanding and Interaction Technology）3.0，提供面向任务对话、基于知识对话、开放式闲聊等技术与服务，创新地提出了基于反馈的对话理解以及基于知识的主动对话技术，并与中文信息学会、计算机学会一起组织了首届基于知识的对话竞赛，吸引了国内外知名高校、企业参加。相关技术通过 UNIT 以技术中台方式在百度搜索、地图、输入法、车联网，以及电信、金融、航司头部客户上广泛应用，周日均请求量达 2.9 亿。

UNIT 在对话理解方面，提出了基于少量样本与规则的 SmartSLU，可基于百级别数据快速形成可用的对话理解模型；此外还结合对话管理技术，提出了反馈式对话理解技术，可在对话过程中通过反馈持续改进理解效果。问答方面，提出了对话式文档问答，可围绕原始业务文档自动生成多轮问答系统。对话管理方面，提出了可编程的对话管理框架 Taskflow，支持基于通用编程语言定义灵活的对话流程。

（5）智能写作

百度智能写作技术非常全面，包括基于句法树生成的结构化数据到文本的生成，基于摘要的文本到文本的聚合生成，先后提出了基于全局语义信息选择网络的摘要抽取模型，和基于句子级结构化控制的摘要生成模型。除传统文本生成技术，还有基于主题规划的诗歌、对联等创意写作，以及基于视频理解的多模生成等。这些自动写作技术已在百度智能写作平台全面对外开放，除自动写作技术，百度智能写作平台还提供了更为实用的辅助写作能力，提供热点发现、热词分析、素材推荐、标题生成、文本纠错等功能，为作者的创作过程提供全流程辅助。

落地成果

百度的语言与知识技术能力，一方面已全面支持了百度内部产品的进化，融入到百度搜索、信息流推荐、百度地图、智能音箱等几乎所有业务和产品中，为亿万用户提供服务；另一方面，也通过开放赋能，通过全方位、多元化的技术开放模式，逐步加速各行各业与人工智能的融合，推动如农业、制造业、零售、教育、医疗、电力、金融等行业的智能化升级。

2019 年 NLP 值得重点关注的技术

具体到 2019 年，又有哪些技术点值得我们重点关注呢？

（1）这两年 NLP 领域最重大的突破是大规模无监督预训练模型。从 2018 年的 ELMo、GPT、BERT 到今年 XLNET、ERNIE，前后出现了不下 10 余种不同的模型，使用语料规模越来越大，能力越来越强，大规模无监督预训练模型还会持续突破，大幅提升 NLP 各个任务的性能。ERNIE 的工作表明，在预训练过程中，通过构建各层面的无监督预训练任务，能够不断提升模型效果。未来还可以沿着这个思路构建更多的任务提升模型性能。目前，基于 “预训练 - 微调”模式已成为自然语言处理领域被广泛采用的一种学习范式，但这种模式也还存在很多值得改进的地方，比如，如何解决灾难性遗忘的问题，如何更高效地提升特定任务上的性能等。

（2）多模态融合的语义表示和分析。深度学习技术将图像、语音、语言等多模态异构信息映射到统一的特征空间中，形成一致的表示形式，使得基于多模态的深度语义理解成为可能，也催生了看图说话、视觉问答等新型多模态研究课题和技术方向。上述“预训练 - 微调”的两阶段范式分别在 CV 和 NLP 领域取得了巨大成功，在多模态信息表征和理解任务上也值得进行进一步探索。另一方面，虽然这种基于深度学习的嵌入表示为多模态信息提供了一种大一统的融合方式，但还是比较粗糙的，也很难表达语言的符号特性和描述逻辑推理过程，需要更基础的理论研究深入探索图像语言信号相互转化的机制，推动深度学习技术与传统符号和逻辑推理技术的融合。

机器翻译的挑战与未来发展

关于机器翻译，吴华老师也谈到了目前遇到的挑战和技术难点，她表示，近年来，基于神经网络的机器翻译发展迅速，翻译质量获得大幅跃升，在很多领域达到可以实用化的水平，广泛地用于外语学习、跨境商务、旅游等领域。

机器翻译主要的难点是资源稀缺的多语言翻译、语篇翻译以及翻译的可解释性等。在资源稀缺的多语言翻译方面，百度提出的多任务学习的翻译方法、知识蒸馏的方法等都大幅提升了翻译质量。篇章翻译也是机器翻译面临的一大挑战。目前，大部分机器翻译系统都以句子为翻译单位，句子之间不连贯、译文前后不一致。百度提出的多轮解码方法，结合增强式学习，使得模型可以产生流畅、连贯的译文。此外，神经网络模型的另外一个挑战是可解释性，研究人员难以对神经网络内部结构及行为进行合理解释，有些研究人员试图结合人类大脑结构的研究来揭示神经网络内部机理。

近年来，随着人工智能技术的发展，呈现多技术融合的趋势。机器同传是其中非常有代表性的研究方向。机器同传涉及语音识别、机器翻译、语音合成等多个领域的技术，近年来取得较大进步。百度研发的机器同传在很多场合得到应用，包括百度世界大会、百度 AI 开发者大会、AICC 人工智能计算大会等内外部几十场大型会议。然而，机器同传距离真正的开放性实用还有一段距离，在语音容错、翻译质量与时延的平衡、翻译的一致性、评估指标等方面都面临极大的挑战。百度近期的一项实验表明：在可接受度方面，机器同传可以媲美人类同传。机器的优点在于不知疲倦，同时在漏译上少于人类同传，而人类同传可以结合自己的理解进行合理省略，保证重要信息的传递，同时保持较小的时间延迟。

将来，资源稀缺的多语言翻译以及多模翻译是一个比较大的趋势，多模翻译尤其是同传以及 AR 翻译是未来翻译的研究的热点。

学术界 PK 工业界，AI 研究有哪些不同？

谈到学术届和工业界 AI 研究的不同，吴华主要从以下几个方面进行了解答：

（1）目标 / 驱动力不同

学术研究关注技术本身，学术界侧重展望未来进行前瞻性的研究，只要是没有解决的问题，都可以去进行探索和研究；工业界更加关注能满足用户需求的研究。

（2）策略不同

学术研究追求技术的完备性、精益求精，可以花大力气追求 1% 的性能提升；应用落地很多时候要“粗、快、猛”，追求性价比，不一定要技术完备才能应用，能够在一定场景下解决实际问题就可以先用起来。

从 AI 学术研究到工业界落地有哪些难点？

应用的场景和时机的选择：技术成熟度，工业界关注技术的普适性，而研究人员关注技术在单点的突破性，这两者的差距，容易造成对技术成熟度的误判。另外，场景的选择很重要，针对不同的场景和用户，需求可能很不一样，NLP 属于基础技术，一方面要有通用性，一方面要提供定制化能力。

改进的手段：从用户的角度、实际的应用场景出发思考问题，不能闭门造车。比如同传技术，并不是只追求翻译质量，还需要考虑到时延的影响，做到两方面的平衡。比如语音唤醒除了考虑唤醒的识别率，还要考虑误报、噪声问题，麦克风的数量及布置方式；技术上需要反复迭代，针对应用问题优化，不断打磨细节。

合作的方式：应用落地需要多方合作，PM、RD、运营等等；产品上往往也不是一种技术的应用，而是多种技术的综合应用，一个客服机器人，不仅仅需要语音识别、还需要合成、知识和自然语言理解，需要各个技术团队之间的合作，各种技术如何融合、相互提升，出了问题如何排查和解决。

在长期奋进中保持专注，是 AI 时代人才最宝贵的特质

最后，对于有志于从事 AI 研究和落地工作的广大工程师，吴老师有以下职业发展和成长建议给到大家。

从研究角度看：一方面要紧跟技术进展，另一方面需要提高定义问题的能力，做出引领技术方向的成果。同时心怀探索科技奥秘的好奇心和以科技改变世界的信念，才可能一直保有对 AI 的热情。

从应用角度看：在技术方面，关注最新的技术动态以及实用的工具平台；在落地方面，关注用户的真实需求和应用场景，采用合适的技术方案很重要，切勿好高骛远。

不论从事 AI 研究还是应用落地，都要有“严谨务实、持之以恒”的精神，要磨练好基本功，往往需要长期的积累才会产生突破，比如机器翻译、人机对话等都是螺旋式上升的技术领域。能够在长期奋进中保持专注，才是人工智能时代人才最宝贵的特质。

活动推荐

吴华老师将作为 AICon 2019 的联席主席深入参与大会，大会还设有“NLP 应用和实践“技术专场为大家带来相关最新技术探索，另外，大会还汇聚了来自百度、阿里、腾讯、亚马逊、Intel、微软、小米、滴滴、蚂蚁金服等国内外 50+ 一线 AI 大牛，从机器学习、搜索推荐、计算机视觉、知识图谱等方向为大家带来满满干货，肯定可以让你收获良多。

目前大会 8 折购票火热进行中，在购票过程中，有任何问题，敬请咨询票务小姐姐 Amy，抢票热线：18514549229（同微信）。

点击图片了解详情