国际

“有话好好说”语音识别技术风靡全球

李仁默/金智燮 朝鲜日报记者

“主人公让智能手机听吉他演奏曲并说‘给这首曲子添加歌词’。智能手机上就会立刻出现‘我躺在月亮上。亲爱的,我很快就去’的歌词。”

这是今年上映后备受欢迎的电影《她》中的一个场面。人和智能设备对话并交流的电影中的场面逐渐成为现实。谷歌、苹果、微软、亚马逊等全球信息技术(IT)企业现在正争先恐后地开发让机器设备听懂人话的语音识别技术。语音识别技术成为驾驭智能手表等新一代智能设备的核心工具。据韩国科学技术信息研究院预测,语音识别领域的世界市场规模将从今年的720亿美元扩大到2017年的1130亿美元。


◇谷歌、苹果纷纷推出语音识别新技术

谷歌本月4日推出了新服务“Voice Answer”和“Voice Action”的韩语版。只要对内置“Voice Answer”功能的智能手机或智能手表说“首尔的天气”,智能设备就会回答“首尔多云,气温零下4度”。过去只是识别语音后搜索并显示相关资料,而新服务是用语音进行回答。“Voice Action”功能是指,对智能设备说“给我妻子发送短信告诉她‘我今晚有约吃完饭再回去’”后,智能设备就会自动在电话簿中搜索“妻子”的号码并按照语音内容发送短信。

亚马逊上月推出了家居语音识别设备“Echo”。相当于罐装饮料大小的“Echo”内置通信功能和扬声器,对着该设备说‘播放适合下雨天听的情歌’后,该设备就会选择适当的音乐播放。

语音识别领域的领跑者是苹果公司。苹果2011年推出具有语音识别功能的人工智能助手“Siri”后,不断改善功能。苹果智能手机“iPhone”最近添加了开机状态下识别语音的功能。例如,在办公室说“Siri”或“Hey, Siri”, Siri就会启动。

以前需要长按“iPhone”下方按键才能启动Siri。利用Siri助手可以通过语音搜索天气和想要获得的信息,还能进行简单对话。

◇语音识别技术不断提高

韩国企业也纷纷致力于开发语音识别技术。NAVER技术研究所目前正在开发韩语识别能力最优秀的语音识别技术。目前已推出测试版,并不断改善性能。

DaumKakao上月在语音合成软件“Newtone Talk”中添加了只要输入韩语语句就能像人一样抑扬顿挫朗读的功能。

例如,如果“你好”这个词在句子前面,就会提高尾音,如果在句子中间则会根据前后文选择是降低尾音还是保持相同音调。这一功能还能对字典中没有的新造词进行语音变换。例如“2NE1”会采用英文读法。DaumKakao还公开了相关技术,外部人员可以开发新服务。

就在四、五年前,语音识别技术的水平还非常低。如果发音不准确,很容易出现识别错误的情况,显示出和提问内容风马牛不相及的回答。而现在的语音识别技术甚至能识别对话语境。

例如,使用谷歌的“Voice Answer”,当用户询问“奥巴马的年龄”时,会回答美国总统奥巴马的年龄“53岁”。再问“他的身高”时,会回答“6.23英尺(约190厘米)”。也就是说,软件能识别“他”就是指“奥巴马总统”。

语音识别技术的发展和物联网(IoT)时代有很深的关系。要想控制可以输入文字的智能手机、个人电脑以及不能输入文字的电视、冰箱、电灯等各种设备,没有比语音更方便的工具。不同于需要一定尺寸以上画面的键盘和鼠标,语音识别功能只需要一个小型麦克即可。韩国电子通信研究院(ETRI)语音处理研究室室长朴全奎(音)指出:“按照目前这种趋势发展下去,电影中出现的人和智能手机或电脑像朋友一样相处的时代将在10至20年后到来。”

输入 : 2014-12-08 16:49  |  更新 : 2014-12-08 17:09

朝鮮日報中文版 cn.chosun.com
本文版权归朝鲜日报网所有, 对于抄袭者将采取法律措施应对

TOP