谷歌表示,它的人工智能技术让智能手机能够解读和“朗读”手语。
这家科技巨头还没有开发出自己的应用程序,但已经发布了算法,它希望开发者可以利用这些算法开发出自己的应用程序。
在此之前,这类软件只能在个人电脑上使用。
来自听力受损社区的活动人士对该举表示欢迎,但他们表示,这项技术可能会难以完全掌握部分对话内容。
在人工智能博客上,谷歌的两位研究工程师瓦伦丁·巴扎列夫斯基(Valentin Bazarevsky)和Fan Zhang称,这项免费公开的技术旨在成为“理解手语的基础”。它是与图像软件公司MediaPipe合作打造而成的。
“我们很期待开发者会产生什么样的点子。就我们而言,我们将继续展开我们的研究,以使得这一技术变得更加强大,进一步稳定对手语手势的跟踪,增加我们可以可靠地检测到的手势的数量。”谷歌的发言人向媒体表示。
谷歌坦言这是第一步。活动人士指出,仅仅依靠手势生成语音的应用程序,可能会忽略掉任何的面部表情或做手势的速度,而这些因素可能会影响对实际手语意思的理解。
此外,该技术不会将任何存在于局部地区的地域性因素纳入考虑。
该算法可以跟踪两只手
听力损失行动(Action on Hearing Loss)的技术经理杰塞尔·维什努拉姆(Jesal Vishnuram)说道,这项计划在听到耳聋者的“声音”上是一个良好的开端,但还需要配套其它的一些功能。
他说,“站在耳聋者的角度来看,开发一种软件将文本或音频自动翻译成手语,以帮助他们的日常沟通,减少其在听觉世界中的孤独感,会更加有益。”
被遮挡的手指
过往,当这类技术试图在视频中追踪手部动作的时候,手指的弯曲和手腕的摆动会遮盖住手其他的部分,因此无法全面进行追踪。这是这类软件的早期版本的一个痛点。
而谷歌的技术则能够在手指、手掌和手背上的21个3D点位上绘制出一个图形,这样当手和手臂弯曲或两根手指接触时,就能更容易理解手势。
美国其他的大型软件供应商也开发了一些技术,来尝试在个人电脑上解读手语。去年,微软与美国国家聋人工学院展开合作,为教室配置台式电脑,然后通过实时翻译员帮助有听力障碍的学生。
在一篇博客中,学生们描述了他们之前错过了一些教授说过的话,因为他们在上课时无法同时查看人工手语翻译和教授在黑板上写的东西,得在二者之间来回转移注意力。
但是通过让电脑桌面显示所有要查看的信息,这一问题便得到解决。
在世界的其他地方,创新者们也已经创造了他们自己的本土技术。
肯尼亚的一名25岁的开发人员研制出了一副触觉手套,它可以给一款Android应用程序翻译手语,然后该应用程序会将对应的文本朗读出来。该款手套是罗伊·阿莱拉(Roy Allela)专门为他听力受损的侄女打造的,他的这一发明最近获得了美国机械工程师协会的奖项。