高斯混合模型参数估值算法的优化_语音转换

时间：2013-04-10 作者：翟继友,张鹏

算法的构成要素有：编码方式，初始种群，适应度函数等，简要描述如下：

(1)编码方法：一个GMM的参数可以用混合权值矢量、均值矩阵和协方差矩阵来加以描述，对于协方差矩阵类型，采用对角阵型式也可以获得同样的建模能力，并具有简化计算的效果。假设M为高斯混合模型分量个数，D是提取的特征矢量的维数，则GMM的参数形式为：权值C[m]，m=l，2，…M，均值矩阵Mean[M][D]，协方差矩阵Covar[M][D]，由于在语音转换中，GMM的参数值都是实数值，因此在遗传算法中用实数串作为染色体的描述。借鉴文献[8]中的做法，定义遗传算法中的染色体结构定义如下：

C[1]Mean[1][1]…Mean[1][D]Covar[1][1]…Covar[1][D]C[2]Mean[2][1]…Mean[2][D]

Covar[2][1]…Covar [2][D]…C[M]Mean[M][1]…Mean[M][D]Covar[M][1]…Covar [M][D]

(2)种群的初始化：初始的种群可以由样本随机产生，也可以先由K-means算法^[9]从样本数据中得到一个初始的模型。本文采用由k-means初始化的方法，先产生一个初始的GMM模型参数，在此基础上，对其相应的参数分别乘以一个均值为1，方差为0.2，0.2和0.3的高斯随机数，即：C*G(1.0，0.2)，Mean*G(1.0语音转换，0.2)，Covar*G(1.0，0.3)，重复K次产生K个人口做为初始种群，这里取K的值为10。

(3)适应度函数：在遗传算法中，适应度值由目标函数得出，本文参考了文献[10]中的模式选择函数，将目标函数定义为由第n个GMM模型λ。产生联合观察矢量序列{Z₁,Z₂…Z₃}的条件概率的对数平均值：，其中N为观察矢量的数目。

(4)混合操作：也称交叉操作，是遗传算法中产生新个体的主要方法，它决定了遗传算法的全局搜索能力。这里的交叉是从P(t)’中，随机选择两个入口，采用单点交叉方式，依照一定的交叉概率，随机选择一个交叉点，然后互换交叉点右侧的染色体结构中的基因，产生后代个体P(t)”，其数量H由交叉概率来控制H=Pc×K，本文Pc设置为0.5。

(5)选择操作：对包含K个个体的P(t)’和H个个体的P(t)”，分别对他们进行适应度计算后，按照最优保留的原则，从中选择适应度最高的前K个个体，保留形成下一代种群杂志网。选择操作使得适应度强的个体以较大概率为下一代提供一个或多个个体，体现适者生存的原则。

(6)变异操作：为了寻找不同的解空间和保持种群的多样性，采用变异操作，它恢复了在初始化阶段丢失的信息，使遗传算法避开初始化模型参数的影响，有利于发现最优模型参数集。为了减少计算的代价，在本文中使用的变异操作只用于对均值的变异，且以一个非常低的概率Pm=O.02进行，通过产生一个在数据集的上下界之间正态分布的随机数，用它乘以要变异的染色体的均值。

以上算法中，将遗传算法和EM过程交叉进行，使用最优保留策略，将当前种群中最优的个体直接复制到下一代，保证了第t+l代种群中的个体不比第t代中的个体差。整个算法由最大进化次数来控制，达到最大的进化次数之后，从中选择适应度最优的一个个体，解码其参数语音转换，进一步利用EM算法进行最大似然估计，直到算法收敛，即两次迭代得到的似然函数差值小于预设的门限阈值为止。这样，就得到了利用遗传算法优化的一个高斯混合模型。

3 实验结果分析

为检验算法效果，进行改进EM算法和传统EM算法的对比实验，实验采用matlab仿真工具，借助voicebox中的工具函数对语音信号进行读入，使用相对的谱失真百分比测度来进行评价。实验分为男声转女声和女声转男声两种情况，每种情况下分别对比了不同高斯分量数目下使用上述算法前后的谱失真测度变化情况。实验主要参数设置为：初始种群大小为10，交叉概率Pc=O.5，变异概率Pm=O.02，最大进化代数为20。

图2 男声转女声失真度比值

图3 女声转男声失真度比值

从图2图3可以看出使用优化算法得出的高斯混合模型所转换出来的语音，相对于一般EM估计算法得出的高斯混合模型所转换出来的语音，具有较小的失真测度值，证明使用遗传算法对高斯混合模型的参数进行估计，能够一定程度上改善的语音质量。

4 结束语

采用遗传算法的全局搜索特性与EM算法相结合，实验证明这样的优化算法对高斯混合模型的参数估计有所改进。在提高转换后语音的质量方面，本文的算法是可行的。付出的代价是算法复杂度的提高和运算时间的增加，实验中上述算法对模型参数进行估计时，训练时间经常会成倍的增加，与获得的质量改善相比，这是一个需要权衡考虑并加以进一步研究的问题。

参考文献：
[1]ReynoldsD A. An overview of automatic speaker recognition technology[J]. IEEE Trans onipeech and Audio Processing, 2002, 10(4): 472-475.
[2]Kain.High resoulation voice transformation[D]. Computer Science and Mathematics,Rockford College, 1995, 47-52.
[3]ZHANGKai, ZHU Lixin, ZHAO Yizheng. Research on modified GMM based voice conversionmethod[J]. Technical Acoustics,2008, 27(3. Pt.2): 392-397.
[4]张凯，朱立新，赵义正.基于重训练高斯混合模型的语音转换方法[J]. 声学技术,2010,29(1):52-55
[5]赵义正.改进GMM谱包络转换性能的语音转换算法研究[J]. 科学技术与工程，2010，10（17）:4172-4174
[6]游源，齐欢，胡祥恩.树状模型中EM算法的矩阵形式[J].计算机工程与应用,2011,47(5):32-34
[7]Tang,K.S.,Man,K.F.，Kwong,S.,He,Q.“Genetic algorithm and their applications”.IEEE Signal ProcessingMagazine 13(6),PP.22-37,1996．
[8]Hong,Q.Y.，Kwong,S,“A genetic classification method for speaker recognition”,Engineering Applications of Artificial Intelligence,V01．18,Issue:1,pp.13-19,February,2005．
[9]田生文，王伊蕾，李阿丽.一种应用复杂网络特征的K-means初始化方法[J].计算机工程与应用2010,46（6）:127-129
[10]Franz Pernkopf,and Djamel Bouchafff如“Genetic-Based EM Algorithm for LearningGaussian Mixture Models“，IEEE Transactions PatternAnalysis and Machine Intelligence,Vol.27,No.8,ppl344-1348.August 2005

2/2 首页上一页 1 2

查看相关论文专题：

	加入收藏打印本文
上一篇论文：利用数学建模理论整合化学实验计算_数学模型
下一篇论文：基于散客旅游需求的我国旅游目的地信息服务研究_杂志网

科技论文分类

相关数学建模论文

无相关信息

最新数学建模论文

读者推荐的数学建模论文