(原标题:百度深度语音识别入选MIT2016十大突破技术)
北京晨报讯(记者 韩元佳)凭借“喊一喊”语音拆福袋玩法,百度在刚刚过去的春节红包大战中完成了语音识别系统的“技术练兵”。如今,这项技术得到了美国权威杂志《麻省理工科技评论》的认可,入选2016年十大突破技术。这项由百度硅谷人工智能实验室(SVAIL)最新研发的技术,也成为唯一一家来自中国科技公司的科技成果。
近日,美国权威杂志《麻省理工科技评论》公布了2016年十大突破技术,免疫工程、精确编辑植物基因、DNA商店、太阳能电池工厂、特斯拉自动驾驶等科技成果入选,百度硅谷最新一代的Deep Speech2语音技术也位列其中,这也是唯一一家中国公司入选。
《麻省理工科技评论》认为,百度在世界语音交互技术领域做出了突出贡献,将语音识别和自然语言理解相结合,为世界上最大的互联网市场创造切实可用的语音接口。百度所推出的深度语音识别系统将人们从传统的利用触摸屏输入汉字发出指令中解放出来,实现语音支配搜索。在便利年轻用户的同时,也帮助中老年人以及教育落后地区用户平等享受技术发展带来的红利。
《麻省理工科技评论》文章指出,由于汉字通过微型触摸屏进行输入的过程耗时且十分繁琐,因此,中国是发展语音接口的理想市场。但汉语语音识别与英文相比,有两大难点:第一是字符数据量大,相比于英文的26个字母,系统要在每次转录中直接输出8万个中文字符中的一个;第二是在普通话的表述中,声调的不同往往会改变一个词的意思。百度通过收集人们常用词,筛选出有用的字符,并省去大量预处理环节,直接输入音频文件,再通过深度神经网络输出字符,从而大大提高系统运算效率。
近年来,市场上的语音虚拟助理层出不穷,例如苹果的Siri、微软的Cortana或Google Now,纷纷与智能手机绑定。亚马逊最新推出的Alexa语音助理,不仅可以控制智能家居里的灯光、听有声书和音乐,还可以帮助用户从亚马逊上买东西或者叫一辆车。去年,百度推出了语音助手“度秘”,可以帮助用户查询电影上映时间,或预订餐厅位置。在刚刚过去的春节红包大战中,百度推出的“喊一喊”拆福袋玩法也是对语音搜索技术的一次练兵。数据显示,在活动期间用户语音互动累计达3.2亿次,在今年除夕夜23点56分,570多万声“过年好”一起迎接钟声。
虽然这些系统并非完美,会出现误听或者误解语音指令,但是这些系统正在不断改进。百度首席科学家吴恩达表示,“我觉得语音发展到一定阶段,会变得非常可靠,你在用语音的时候甚至根本就不去想它。最好的技术往往是肉眼看不到的,随着语音识别技术变得越来越可靠,我想它将最终消失于幕后。”