语音识别揭秘 你的手机究竟有多理解你看完就了解了!
扫一扫
分享文章到微信
扫一扫
关注鹿财经网微信公众号
在我们的生活中,语言是传递信息最重要的方式,它能够让人们之间互相了解。人和机器之间的交互也是相同的道理,让机器人知道人类要做什么、怎么做。交互的方式有动作、文本或语音等等,其中语音交互越来越被重视,因为随着互联网上智能硬件的普及,产生了各种互联网的入口方式,而语音是最简单、最直接的交互方式,是最通用的输入模式。
Siri技术来源于美国国防部高级研究规划局(DARPA)的CALO计划:初衷是一个让军方简化处理繁重复杂的事务,并具备认知能力进行学习、组织的数字助理,其民用版即为Siri虚拟个人助理。
现在,Siri成为苹果iPhone上的一项语音控制功能,可以让手机变身为一台智能化机器人。通过自然语言的语音输入,可以调用各种APP,如天气预报、地图导航、资料检索等,还能够通过不断学习改善性能,提供对话式的应答服务。
语音识别(ASR)原理
(1)语音输入的预处理模块
对输入的原始语音信号进行处理,滤除掉其中的不重要信息以及背景噪声,并进行语音信号的端点检测(也就是找出语音信号的始末)、语音分帧(可以近似理解为,一段语音就像是一段视频,由许多帧的有序画面构成,可以将语音信号切割为单个的“画面”进行分析)等处理。
(2)特征提取
(3)声学模型训练
(4)语言模型训练
(5)语音解码和搜索算法
站在巨人的肩膀上:开源框架
(2)噪声的困扰
(3)模型的有效性
投稿邮箱:lukejiwang@163.com 详情访问鹿财经网:http://www.lucaijing.com.cn