特征参数提取基于语音帧,采用分帧提取特片。先对语音信号进行重叠分帧,前一帧和后一帧重叠一半(帧信号重叠是体现相邻两帧数据之间的相关性),帧长为25ms,对每帧提取一次语音特片。
MFCC参数属于感知频域倒谱参数,反映了语音信号短时幅度谱的特征。p维MFCC参数的提取过程如图1所示。
其中:m是帧号,N是单位帧内的采样点数。
HMM是描述语音信号的一种概率统计模型,使用 MarKov链来模拟语音信号统计特性的变化,HMM模型是在Markov链的基础上发展起来的。
Viterbi算法是一种帧同步动态规整算法,在给定观察值序列和模型时,Viterbi算法给出了一个概率密度P(Q,O | λ)最大的状态序列。
控制模块的主要功能是:在单片机查询到语音模块输出的语音词条信号后,查表获得词条编码,根据编码判断对应按键是长按或短按,分别进入相应的子程序处理,长按子程序延时1s,短按子程序延时0.2s.在子程序中,输出语音命令所对应的I/O控制信号驱动继电器吸合模拟按键或编码开关动作,并及时复位I/O口。为了避免语音控制和手动控制之间冲突,语音控制模块可以完全兼容于手动控制,在语音控制操作时,同时可以进行手动控制。
实验结果及结论
本系统的样机实验主要是测试非特定人的语音识别率和模拟开关动作的准确率。由于汽车音响的语音词条为2~4个字,语音识别率实验内容为车载音响常用2字词条指令18条、3字词条指令12条、4字词条指令10条,实验对象为6人4男、2女(普通话和方言),实验环境为噪声干扰环境和相对安静环境,样机测试结果如表1所示。

由表1可知,系统的识别率与语音指令词条字数、麦克接收距离、说话人方言及环境有关。4字词识别率高于2字词,相对安静环境下识别率可以达到90%以上,男声和女声的识别率接近。有噪声干扰环境中识别率下降。为了提高系统的识别率,系统样机采用奥林巴斯 ME52定向麦克(在表中没有反映),提高了麦克接收范围,使系统总体的识别率上升到95%.
在系统样机控制电路实验中,模拟开关动作达到了较高的准确率,测试结果为98%以上,只要控制程序运行正常,各路继电器就能按照程序安排执行闭合和断开模拟手动开关操作。
实现汽车电器的语音控制是未来车载电器的发展趋势,越来越多的解决方案在不断的被提出和验证。本文提出的设计是在SL1102C1型车载音响上使用SDA80D51芯片,实现了车载音响非特定人的语音识别与控制。由于该芯片集成度高,需要外围模块少,设计的硬件电路简单,便于调试检测。该设计得到的样机,有较高的识别率、工作稳定、可扩展性强,达到预期的设计目标,整个设计方案和实现方法是可行的。由于语音识别率随着环境,说话人不同而变化,虽然HMM在噪声很少的环境下可以获得很高的识别率,但当测试语音或者环境中含有不同程度的噪声污染时,语音识别系统的性能会很快地下降。提高系统的抗噪性和鲁棒性是语音识别系统走向实用化的关键之一。