技术研究 前沿技术研究,让产品更智能。
ASR自动语音识别理论介绍
AIASR

自动语音识别技术是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。

自动语音识别(Automatic Speech Recognition 简称“ASR“),技术的目标是让计算机能够“听写”出不同人所说出的连续语音,也就是俗称的“语音听写机”,是实现“声音”到“文字”转换的技术。 自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。

语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。它是语音信号处理学科的一个分支。

语音识别系统的性能大致取决于以下4类因素:
1. 识别词汇表的大小和语音的复杂性;
2. 语音信号的质量;
3. 单个说话人还是多说话人;
4. 硬件。

分类
自动语音识别通常有以下几种分类方法:
(1)按系统的用户情况分:特定人和非特定人识别系统;
(2)按系统词汇量分:小词汇量、中词汇量和大词汇量系统;
(3)按语音的输入方式分:孤立词、连接词、连续语音系统等;
(4)按输入语音的发音方式分:朗读式、口语(自然发音)式;
(5)按输入语音的方言背景情况分:普通话、方言背景普通话、方言语音识别系统;
(6)按输入语音的情感状态分;中性语音、情感语音识别系统。

基本原理
训练(Training):预先分析出语音特征参数,制作语音模板,并存放在语音参数库中。
识别(Recognition):待识语音经过与训练时相同的分析,得到语音参数。将它与库中的参考模板一一比较,并采用判决的方法找出最接近语音特征的模板,得出识别结果。
失真测度(Distortion Measures):在进行比较时要有个标准,这就是计量语音特征参数矢量之间的“失真测度”。
主要识别框架:基于模式匹配的动态时间规整法(DTW)和基于统计模型的隐马尔可夫模型法(HMM)。

新客户福利 — 新客户可申请免费体验
在线快速申请,免费体验产品,直观了解功能,快速接入系统,真实感受服务
企业产品
语音智能体
SCRM
全渠道客服
大数据分析
数据可视化
客户关系管理
政务产品
政务协同办公
政务服务热线
政务办公电话
120院前调度
智能专家抽取
公共消息触达
资源产品
短信通道
400电话
企业总机
物联网卡
解决方案
企业方案
政务方案
案例
医疗医美
互联网软件
消费零售
教育培训
企服推广
房产家居
汽车出行
电商直播
生产制造
更多
技术研究
融合通信
人工智能
云计算
大数据
5G通信
物联网
客户管理
智慧政务
了解智呼云
关于我们
新闻中心
联系方式
加入我们
订阅我们
第一时间获得智呼云的最新动态
投诉建议
Copyright © Zcallr 2007-2021 成都智呼通信技术有限公司(智呼云成员) 版权所有
本网站涉及的“智呼云”、“智呼”、“zcallr”文字及图形均为智呼云持有的商标,授权智呼云成员企业使用。 本网站向消费者推销产品或者服务的商业宣传均属于广告。
在线咨询
联系方式
回到顶部