第十七章 第八章 重拾千万年的记忆
根据不同的任务需求,声纹识别还面临一个特征选择或特征选用的问题。
例如,对“信道”信息,在刑侦应用上,希望不用,也就是说希望弱化信道对说话人识别的影响,因为我们希望不管说话人用什么信道系统它都可以辨认出来;
而在银行交易上,希望用信道信息,即希望信道对说话人识别有较大影响,从而可以剔除录音、模仿等带来的影响。
总之,较好的特征,应该能够有效地区分不同的说话人,但又能在同一说话人语音发生变化时保持相对的稳定;
不易被他人模仿或能够较好地解决被他人模仿问题;
具有较好的抗噪性能;……。
当然,这些问题也可以通过模型方法去解决。
对于模式识别,有以下几大类方法:
(1)模板匹配方法:利用动态时间弯折(DTW)以对准训练和测试特征序列,主要用于固定词组的应用(通常为文本相关任务);
(2)最近邻方法:训练时保留所有特征矢量,识别时对每个矢量都找到训练矢量中最近的K个,据此进行识别,通常模型存储和相似计算的量都很大;
(3)神经网络方法:有很多种形式,如多层感知、径向基函数(RBF)等,可以显式训练以区分说话人和其背景说话人,其训练量很大,且模型的可推广性不好;
(4)隐式马尔可夫模型(HMM)方法:通常使用单状态的HMM,或高斯混合模型(GMM),是比较流行的方法,效果比较好;
(5)VQ聚类方法(如LBG):效果比较好,算法复杂度也不高,和HMM方法配合起来更可以收到更好的效果;
(6)多项式分类器方法:有较高的精度,但模型存储和计算量都比较大;
(7)……
声纹识别需要解决的关键问题还有很多,诸如:
短话音问题,能否用很短的语音进行模型训练,而且用很短的时间进行识别,这主要是声音不易获取的应用所需求的;
声音模仿(或放录音)问题,要有效地区分开模仿声音(录音)和真正的声音;
多说话人情况下目标说话人的有效检出;
消除或减弱声音变化(不同语言、内容、方式、身体状况、时间、年龄等)带来的影响;
消除信道差异和背景噪音带来的影响;
……
此时需要用到其他一些技术来辅助完成,如去噪、自适应等技术。
对说话人确认,还面临一个两难选择问题。
通常,表征说话人确认系统性能的两个重要参数是错误拒绝率(False Rejection Rate, FRR)和错误接受率(False Acceptation Rate, FAR),前者是拒绝真正说话人而造成的错误,后者是接受集外说话人而造成的错误,二者与阈值的设定相关,两者相等的值称为等错率(Equal Error Rate, EER)。
今生所有的相遇都是久别重逢提示您:看后求收藏(同创文学网http://www.tcwxx.com),接着再看更方便。