Photo by Samuele Errico Piccarini on Unsplash
在过去十年中,深度神经网络取得了突破性进展,从微软亚洲研究院在ImageNet图像识别挑战赛中使用的残差网络,到DeepMind的alphaGo围棋算法,它们都依赖深度神经网络的发展与完善。
在自动驾驶汽车领域,深度神经网络也起到了类似于推动引擎的作用。估算道路边缘位置、发现障碍物、根据GPS数据和加速度计跟踪汽车位置,穿越繁忙的十字路口……自动驾驶汽车早已经学会利用感知和环境建模层和高层次推理层来进行思考。
据英国路透社7月19日报道,宝马和腾讯于当日表示,两家公司将联手在中国这个世界上最大的汽车市场成立一个计算中心,帮助其研发自动驾驶汽车。该计算中心将于今年年底开始运营,将为汽车提供数据处理能力,帮助汽车实现半自动驾驶,并最终实现自动驾驶。
虽然在英美以及德国、瑞典 、西班牙等欧洲国家,自动驾驶汽车已经上路,但我们距离自驾汽车的普及还有很长一段路要走。在瑞典这样汽车工业高度发达的国家,也仅有十分之一的国民允许路测,这意味着大部分人对于自驾汽车的接受程度依然不高。
回看中国,大片区域在自动驾驶领域依然是空白。宝马与腾讯的合作是否意味着自动驾驶汽车即将走入中国大众视野?在不远的将来,人们可以安心依靠“汽车的大脑”上路吗?
其实早在2004年,自动驾驶汽车就开始被关注。在谷歌前工程专家、机器学习博士肖恩·格里什的新书《智能机器如何思考》中,清晰地介绍了自动驾驶汽车在过去十几年间的发展历程。
以纵深的视角回望过去10年乃至15年,自动驾驶汽车是如何从最初的7英里到可以采用三层架构相应的规划各层任务的?深度神经网络在其中又扮演着何种角色?我们距离自动驾驶汽车大规模投入研发到底还有多远?
一、从无到有,挑战不可能(自动汽车研究案例:悍马)
2004 年,第一次机器人汽车比赛在莫哈韦沙漠拉开了战幕,胜利者将获得百万美金的奖励。
在这场比赛中,最有可能获胜的是来自卡内基–梅隆大学的克里斯和威廉的团队。卡内基–梅隆大学的研究人员在过去20 年一直引领着这一领域,早在1991 年,他们就把一辆原始的自动驾驶汽车开上了匹兹堡的街道。
但令人沮丧的是,这机器人汽车比赛头奖的桂冠最终无人摘取,因为没有任何一辆参赛汽车在规定时间内跑完全程——哪怕仅仅是10小时跑完142英里的赛程。
即便如此,我们依然会以克里斯和他的团队的作品为例,对最初的无人驾驶汽车形态一探究竟。
比赛当天,克里斯和他的团队设计的装满了传感器的悍马一路领先,在行驶7英里之后,冲上路肩,装上了一块岩石,不得不退出比赛。但它仍然比当天其他参赛车辆要好得多。
悍马是如何自动行驶7英里的?自动驾驶汽车实现自动驾驶所使用的技术是机器学习,特别是深度神经网络。但是克里斯和他的同事赛后描述他们的悍马时,根本没有提到机器学习和神经网络。当时是2004 年,距离我们研究出如何训练神经网络可靠地“看到”物体还有将近10年的时间。
答案是,沃康松那个时代的人通过使用一种叫离心调速器的装置,创建了一个反馈回路来控制发动机的速度。离心调速器是一种带有两个金属飞球的“旋转”装置,如下图所示:
当发动机运转得更快时,离心调速器就旋转得更快,金属飞球被离心力向外拉。通过一系列杠杆,一个阀门会关闭进入发动机的燃料通路,使发动机减速。如果发动机运转太慢,装置就会增加发动机的燃料,使其加速。通过调节注入发动机的燃料,离心调速器可以让发动机的转速保持稳定。
这便是悍马的驱动装置。但当悍马在比赛中行驶时,它并不是朝某个随机方向行驶25 分钟,而是沿着一条通往特定目的地的道路行驶,这个目标又如何完成?
克里斯和他的团队为汽车配备了GPS传感器来检测位置。从理论上讲,汽车只需要从地图上的一个地点导航到另一个地点,用GPS传感器调整方向,使自身保持沿路线行进即可。
车队还提前绘制了一幅巨大的地图,以此完善他们在比赛当天早上刚刚得到的那张地图。在比赛开始前的几周里,他们研究了54 000 平方英里沙漠的卫星图像,以确定障碍物的位置。
但不可避免的是,由于技术限制,一切确认路线的地图标记行为都是14个人的团队在计算机的支持下手动标记的。
带着蹩脚而又明显的人工干预痕迹,悍马上路了。它只行驶了7英里就不得不退出比赛。但克里斯车队迈出的这一小步,是整个自动驾驶汽车行业的一大步。
二、自动汽车的三层大脑如何感知?(自动汽车研究案例:斯坦利)
第二次机器人汽车比赛在一年后如期举行,这次悍马终于跑完了全程,但获胜者却不是它, 而是完全押注于机器学习的现代化自动驾驶汽车团队——斯坦福车队。
该车队的主创人员由20名斯坦福大学人工智能实验室的学生和领队塞巴斯蒂安构成。由塞巴斯蒂安带领,车队凭借着两辆大众途锐汽车的赞助,在8周内造出了参赛原型车——斯坦利。值得一提的是,在研发阶段,整个团队只阅读了两篇论文,目的是在研究过程中不偏向于任何特定的方法。
“无论在比赛前还是在比赛中,机器学习的广泛应用都使斯坦利变得强大和精确。我们相信,这些技术加上广泛的测试,对斯坦利在这场比赛中的成功起到了很大的作用。”
在自动驾驶汽车成为主流媒体热门词汇之前的近10年里,他们就欣然接受了机器学习在自动驾驶汽车领域的角色,塞巴斯蒂安的车队在赛后这样描述其赛车。
塞巴斯蒂安的团队整合的架构由三个独立的部分组成,如图所示。
架构最左侧的部分是硬件层,其中包括传感器和执行器,前者负责收集数据,后者控制转向、刹车和发动机转速。
在另一端,即最右边,是思考层,或称规划层:它执行汽车的高层次规划。鉴于道路上有障碍,这一层解决了汽车应该如何转向以避开障碍的问题。这一层负责决定汽车的实际驾驶方式。它将命令发送到最左边的硬件层。
中间层位于左侧的硬件层和右侧的思考层之间。它将传感器的原始读数转换成可解释的模型,这样思考层就可以完成它的工作。其中一些模型简单地总结了斯坦利需要遵循的高级路线,这是斯坦利在比赛开始时规划的路线。其他模型对数据进行处理,以此告诉斯坦利它的传感器看到了什么。
中间层中持续运行着各种各样的机器学习模块,其中包括几个道路检测系统,这些模块解释混乱无序的传感器读数, 并把它们转换成对世界更有意义的解释,然后传递给规划层。
这样的三层大脑,足以为“斯坦利”提供一定的感知力,确保它能在驾驶中避开障碍物,寻找道路的边缘。
三、Boss的高层次推理层(自动汽车研究案例:雪佛兰·塔霍)
这一年的城市自动车挑战赛冠军得主终于回归到了克里斯团队,不过他们已经放弃了悍马,改选雪佛兰·塔霍的2007版(后面称之为Boss)。
在三年的时间里,自动驾驶汽车从无法在沙漠中行驶超过8 英里变成了可以在路上行驶数小时,成功穿过繁忙的十字路口。除了用感知和环境建模层进行观察外,Boss和其他汽车还需要一种方法来推算它们的环境。在之前的两个案例中,我们看到的汽车全都无法做到这些,那么Boss是如何做到的呢?
硬件的改进是一个因素吗?当然,硬件一直在改进,但这个问题的真正答案在于这些汽车软件架构的进步。
Boss的大脑核心是三个模块,它们的抽象推理层次逐个降低。在下图架构的最右边的板块中可以看到这一点。
有趣的环节在这一层发生——
我们将路线规划器下面的抽象层称为大富翁棋盘模块。这一层可以说是最复杂的,因为它需要跟踪Boss正在做什么以及接下来需要做什么。它是用一种叫“有限状态机”的东西来实现这些的。 有限状态机为计算机程序提供了一种通过限制其需要处理的事情来推算环境的方法。
它的工作原理很像《大富翁》游戏:你有一枚可以在棋盘上移动的棋子,在任意给定的时间,你的棋子都会在棋盘上精确地处于一个状态(即位置)。这个状态决定了你现在可以做什么以及下一步你可以移动到什么地方。
如果还不清楚,那我们换个方法解释。
如果在玩《大富翁》游戏时走到了一处没有人占领的公园,你就可以买下它。如果你进了监狱,要出去有三种方法:一是掷出点数一样的骰子,二是支付50美元,三是弄到一张“免罪卡”。游戏的规则以及你的棋子在棋盘上的状态为你简化了《大富翁》玩家的世界,这样你就不会被各种可能性淹没。也就是说,当你走到公园,你就只能购买公园或者放弃。
回看大富翁棋盘模块,汽车当前的位置也决定了你下一步可以移动几步。这取决于掷骰子的结果。克里斯团队设计Boss的时候,为大富翁模块创造了各种有限状态机,每一种分别适用于Boss可能会遇到的环境状态。当Boss驱车前行,它的大富翁棋盘模块围绕着有限状态机移动一枚虚拟的大富翁棋子,以此记录汽车正在做什么以及需要做什么来实现下一个目标。
大富翁棋盘模块的职责是,从路线规划器手中接过任务,跟踪任务完成进度,然后将行动委托给下一个层次—运动规划器,直到任务完成。运动规划器(图右下角所示的模块)的职责是为汽车找到并执行一条路径,使其从当前位置安全地驶向大富翁棋盘指定的目标位置。
大富翁棋盘模块执行了大部分你可能会联想到的与驾驶相关的人类推理,这就是高层次推理层。
就像《智能机器如何思考》作者肖恩·格里什所说的那样,虽然自动驾驶汽车在这些比赛中取得了进步,但由于技术和法律方面的挑战,这些汽车要在没有人类驾驶员的情况下在公共道路上行驶还需要很多年。在城市挑战赛举办10 年之后,处理意外情况的能力仍然是这些汽车面临的最大问题之一。
那么伴随着深度神经网络的进一步发展,下一个10年,大众能否真正搭上无人驾驶的快车?
本文综编自谷歌前工程专家、机器学习博士肖恩·格里什力作《智能机器如何思考:深度神经网络的秘密》,中信出版集团2019年6月出版。以上图片来源于unsplash。
下载虎嗅APP,第一时间获取深度独到的商业科技资讯,连接更多创新人群与线下活动