本篇文章639字,读完约2分钟

TNW中文站11月24日报道

谷歌的人工智能部门DeepMind正与牛津大学的研究人员合作开发世界上最先进的唇读软件,这可能比人类的唇读能力还要强。

为了实现这个目标,研究人员选择了数千小时的英国广播公司电视短片,将它们上传到一个神经网络,并训练他们的唇读软件,即根据主持人的口型识别广播内容。

结果,该唇读软件的唇读准确率高达46.8%。相比之下,基于相同的测试内容,人类唇读的准确率仅为12.4%。

这项研究是基于牛津大学之前的人工智能唇读系统LipNet。LipNet可以将视频中人物的嘴部动作与他们的线条进行匹配,准确率为93.4%。当然,准确性主要是基于一些相对简单的句子。

DeepMind的唇读软件叫做“观察、倾听、倾听、附加和拼写”。与LipNet不同,DeepMind的软件专门用于更难的长句。

为此,谷歌神经网络观看了英国广播公司约5000小时的热门电视节目,包括“晚间新闻”、“提问时间”和“今日世界”,其中包含110000个不同的句子和17500个不同的单词。相比之下,测试LipNet的句子只包含51个不同的单词。

谷歌对此表示:这项研究的目的是识别人们说话时的短语和句子,不管有没有声音。不同于以往的相关研究,它们仅限于数量有限的单词或短语,而我们的研究是针对无限的自然语言长句。

DeepMind团队认为,他们新开发的软件不仅能帮助听力受损的人,还能支持一系列其他应用,包括给电影添加注释,以及通过嘴唇运动与Siri和Alexa等数字助理交流。

来源:罗马观察报

标题:谷歌开发人工智能“唇读”软件的准确率是人类的3倍

地址:http://www.l7k9.com/gcbyw/939.html