5.6.2 神经计算与声纹识别
神经计算泛指应用人工神经网络(ANN,Artificial Neural Network)进行的各种智能计算,它能体现人的某些智能特性。ANN的模型本身就是模拟人脑自身生物神经元及其连接而构造的。尽管由于计算机计算能力至今还不足以完成像人脑(1 000亿左右神经细胞)那样复杂神经网络的学习和计算,但它所表现出的能力和潜力已被大家所认同,并在各行各业中大显身手。其实ANN也是由若干单个神经元互连而成的。每个神经元可以由如图5-23所示的数学模型模拟。
我们可以把它看成一种映射关系,当一个音频特征输入时,通过神经连接强度[w1,w2,…,wn]和激活函数f的运算来决定这个神经元是否被激活。如果被激活,它就向与它连接的其他神经元发出刺激信号,相反就发出抑制信号。那么复杂一点的网络如图5-24所示,它的详细参数如图5-25所示。
图5-23 单神经元模型
图5-24 单个神经元组成的网络
图5-25 单个神经元组成的网络
这里就出现了4个神经元,它们共同形成网络,对输入的信号作出反应。于是,所谓的学习就是当某些共性的输入反复出现时,我们让ANN给出一个稳定的输出,代表它对这一组共性输入已经有所掌握,学术上可以把这称作聚类分析。
人工神经网络模型已被应用在语音技术的许多方面。笔者考虑到ANN的统计特性、鲁棒性、学习能力、非线性映射能力,所以决定用它来分析一个特定人的声纹信息,找到和发现其声纹。
声纹识别一个特定人需要找到特定人的一组声纹参数,并且是在开集条件下、限定文本。首先从电视上采录下一个特定人的音频波形,如图5-26所示,然后进行参数提取,采用240点的分帧,计算基频及其16阶LPCC谱参数,然后把有效的LPCC参数画出来,如图5-27所示。
图5-26 特定人的音频波形
可见特定人的声纹在这一段采样中是稳定的。但是哪一个才能真正代表特定人而非他人呢?这里还需要做一些统计和聚类的工作,我们采用ANN技术,用2×2的SOFM(Self Organizing Feature Map)神经网分析过后发现了一种声纹模式,可以代表特定人的特征,这种特征使得特定人说话时学习过这一特征的神经元十分活跃,于是就把这条线所代表的参数定义为特定人的声纹。
以后要判定某一种声音是否是所说的特定人的声音,用此声纹模式做比对就可以做出判断。
根据不同的需要,如何提取有效的研究对象的声纹、怎样提取、如何保证准确性、如何处理与去除不相关干扰等都是声纹识别研究中的难题。另外,声纹不只是指人的语音特征,它可以是任何物体发出的可闻或不可闻的信号,这就如同海豚可以发出、听见并且辨认几海里之外的鱼群一样,因此它的应用领域和前景不可预估。
图5-27 特定人的声纹分布曲线
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。