第十七章 第七章 你到底是谁?
他知道了:
声纹识别有文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种。
比如,在银行交易时可以使用文本相关的声纹识别,因为用户自己进行交易时是愿意配合的;
而在刑侦或侦听应用中则无法使用文本相关的声纹识别,因为你无法要求犯罪嫌疑人或被侦听的人配合。
在对说话的人辨认方面,根据待识别的说话人是否在注册的说话人集合内,说话人辨认可以分为开集(open-set)辨认和闭集(close-set)辨认。
前者假定待识别说话人可以在集合外,而后者假定待识别说话人在集合内。
显然,闭集辨认需要有一个对集外说话人的“拒识问题”,而且闭集辨认的结果要好于开集辨认结果。
本质上讲,说话人确认和开集说话人辨认都需要用到拒识技术,为了达到很好的拒识效果,通常需要训练一个假冒者模型或背景模型,以便拒识时有可资比较的对象,阈值容易选定。
而建立背景模型的好坏直接影响到拒识甚至声纹识别的性能。
一个好的背景模型,往往需要通过预先采集好的若干说话人的数据,通过某种算法去建立。
如果技术达到一定的水平,可以把文本相关识别并入文本无关识别,把闭集辨认并入开集辨认,从而提供更为方便的使用方法。
声纹识别可以说有两个关键问题,一是特征提取,二是模式匹配(模式识别)。
李浩楠看着眼前的女子,金凌儿,你到底是谁?
他把自己毕生所学的东西,都用在分析这个熟悉的声线?
到底是在哪里听过?
你到底是谁?
李浩楠想起学习声纹时的知识,他在筛选着,使用着......
他回忆着:特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。
与语音识别不同,声纹识别的特征必须是“个性化”特征,而说话人识别的特征对说话人来讲必须是“共性特征”。
虽然大部分声纹识别系统用的都是声学层面的特征,但是表征一个人特点的特征应该是多层面的,包括:
(1)与人类的发音机制的解剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等等)、鼻音、带深呼吸音、沙哑音、笑声等;
(2)受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等;
(3)个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征。
从利用数学方法可以建模的角度出发,声纹自动识别模型可以使用的特征包括:
(1)声学特征(倒频谱);
(2)词法特征(说话人相关的词n-gram,音素n-gram);
(3)韵律特征(利用n-gram描述的基音和能量“姿势”);
(4)语种、方言和口音信息;
(5)通道信息(使用何种通道);等等。
今生所有的相遇都是久别重逢提示您:看后求收藏(同创文学网http://www.tcwxx.com),接着再看更方便。