版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
文献信息:文献标题:SpeechRecognitionUsingVectorQuantizationthroughModifiedK-meansLBGAlgorithm(基于改进矢量量化K-均值LBG算法的语音识别)国外作者:BalwantA.Sonkamble,DharmpalDoye文献出处:《ComputerEngineeringandIntelligentSystems》,2012,7(3)字数统计:英文2389单词,13087字符;中文3968汉字夕卜文文献:SpeechRecognitionUsingVectorQuantizationthrough
ModifiedK-meansLBGAlgorithmAbstractIntheVectorQuantization,themaintaskistogenerateagoodcodebook.Thedistortionmeasurebetweentheoriginalpatternandthereconstructedpatternshouldbeminimum.Inthispaper,aproposedalgorithmcalledModifiedK-meansLBGalgorithmusedtoobtainagoodcodebook.Thesystemhasshowngoodperformanceonlimitedvocabularytasks.Keywords:K-meansalgorithm,LBGalgorithm,VectorQuantization,SpeechRecognition1.IntroductionThenaturalwayofcommunicationamonghumanbeingsisthroughspeech.Manyhumanbeingsareexchangingtheinformationthroughmobilephonesaswellasothercommunicationtoolsinarealmanner[L.R.Rabineretal.,1993].TheVectorQuantization(VQ)isthefundamentalandmostsuccessfultechniqueusedinspeechcoding,imagecoding,speechrecognition,andspeechsynthesisandspeakerrecognition[S.Furui,1986].Thesetechniquesareappliedfirstlyintheanalysisofspeechwherethemappingoflargevectorspaceintoafinitenumberofregionsinthatspace.TheVQtechniquesarecommonlyappliedtodevelopdiscreteorsemi-continuousHMMbasedspeechrecognitionsystem.InVQ,anorderedsetofsignalsamplesorparameterscanbeefficientlycodedbymatchingtheinputvectortoasimilarpatternorcodevector(codeword)inapredefinedcodebook[[Tzu-ChuenLuetal.,2010].TheVQtechniquesarealsoknownasdataclusteringmethodsinvariousdisciplines.Itisanunsupervisedlearningprocedurewidelyusedinmanyapplications.Thedataclusteringmethodsareclassifiedashardandsoftclusteringmethods.Thesearecentroid-basedparametricclusteringtechniquesbasedonalargeclassofdistortionfunctionsknownasBregmandivergences[ArindamBanerjeeetal.,2005].Inthehardclustering,eachdatapointbelongstoexactlyoneofthepartitionsinobtainingthedisjointpartitioningofthedatawhereaseachdatapointhasacertainprobabilityofbelongingtoeachofthepartitionsinsoftclustering.Theparametricclusteringalgorithmsareverypopularduetoitssimplicityandscalability.Thehardclusteringalgorithmsarebasedontheiterativerelocationschemes.TheclassicalK-meansalgorithmisbasedonEuclideandistanceandtheLinde-Buzo-Gray(LBG)algorithmisbasedontheItakura-Saitodistance.Theperformanceofvectorquantizationtechniquesdependsontheexistenceofagoodcodebookofrepresentativevectors.Inthispaper,anefficientVQcodebookdesignalgorithmisproposedknownasModifiedK-meansLBGalgorithm.ThisalgorithmprovidessuperiorperformanceascomparedtoclassicalK-meansalgorithmandtheLBGalgorithm.Section-2describesthetheoreticaldetailsofVQ.Section-3elaboratesLBGalgorithm.Section-4explainsclassicalK-meansalgorithm.Section-5emphasizesproposedmodifiedK-meansLBGalgorithm.TheexperimentalworkandresultsarediscussedinSection-6andtheconcludingremarksmadeattheendofthepaper.VectorQuantizationThemainobjectiveofdatacompressionistoreducethebitratefortransmissionordatastoragewhilemaintainingthenecessaryfidelityofthedata.Thefeaturevectormayrepresentanumberofdifferentpossiblespeechcodingparametersincludinglinearpredictivecoding(LPC)coefficients,cepstrumcoefficients.TheVQcanbeconsideredasageneralizationofscalarquantizationtothequantizationofavector.TheVQencoderencodesagivensetofk-dimensionaldatavectorswithamuchsmallersubset.ThesubsetCiscalledacodebookanditselementsC.arecalledcodewords,codevectors,reproducingvectors,prototypesordesignsamples.Onlytheindexiistransmittedtothedecoder.Thedecoderhasthesamecodebookastheencoder,anddecodingisoperatedbytablelook-upprocedure.ThecommonlyusedvectorquantizersarebasedonnearestneighborcalledVoronoiornearestneighbourvectorquantizer.BoththeclassicalK-meansalgorithmandtheLBGalgorithmbelongtotheclassofnearestneighborquantizers.Akeycomponentofpatternmatchingisthemeasurementofdissimilaritybetweentwofeaturevectors.ThemeasurementofdissimilaritysatisfiesthreemetricpropertiessuchasPositivedefinitenessproperty,SymmetrypropertyandTriangularinequalityproperty.Eachmetrichasthreemaincharacteristicssuchascomputationalcomplexity,analyticaltractabilityandfeatureevaluationreliability.ThemetricsusedinspeechprocessingarederivedfromtheMinkowskimetric[J.S.Panetal.1996].TheMinkowskimetriccanbeexpressedasID(X,Y)=p宁g—y]p\i=1WhereX={x1,x2,...,xk}andY={y1,y2,...,yk}arevectorsandpistheorderofthemetric.TheCityblockmetric,EuclideanmetricandManhattanmetricarethespecialcasesofMinkowskimetric.Thesemetricsareveryessentialinthedistortionmeasurecomputationfunctions.Thedistortionmeasureisonewhichsatisfiesonlythepositivedefinitenesspropertyofthemeasurementofdissimilarity.ThereweremanykindsofdistortionmeasuresincludingEuclideandistance,theItakuradistortionmeasureandthelikelihooddistortionmeasure,andsoon.TheEuclideanmetric[Tzu-ChuenLuetal.,2010]iscommonlyusedbecauseitfitsthephysicalmeaningofdistanceordistortion.Insomeapplicationsdivisioncalculationsarenotrequired.Toavoidcalculatingthedivisions,thesquaredEuclideanmetricisemployedinsteadoftheEuclideanmetricinpatternmatching.Thequadraticmetric[MarcelR.Ackermannetal.,2010]isanimportantgeneralizationoftheEuclideanmetric.Theweightedcepstraldistortionmeasureisakindofquadratecmetric.Theweightedcepstraldistortionkeyfeatureisthatitequalizestheimportanceineachdimensionofcepstrumcoefficients.Inthespeechrecognition,theweightedcepstraldistortioncanbeusedtoequalizetheperformanceoftherecognizeracrossdifferenttalkers.TheItakura-Saitodistortion[ArindamBanerjeeetal.,2005]measurecomputesadistortionbetweentwoinputvectorsbyusingtheirspectraldensities.TheperformanceofthevectorquantizercanbeevaluatedbyadistortionmeasureDwhichisanon-negativecostD(X,X.)associatedwithquantizinganyinputvectorX.withareproductionvectoX..Usually,theEuclideandistortionmeasureisused.TheperformanceofaquantizerisalwaysqualifiedbyanaveragedistortionD E[D(X.,X.)]etweentheinputvectorsandthefinalreproductionvectors,whereErepresentstheexpectationoperator.Normally,theperformanceofthequantizerwillbegoodiftheaveragedistortionissmall.AnotherimportantfactorinVQisthecodewordsearchproblem.Asthevectordimensionincreasesaccordinglythesearchcomplexityincreasesexponentially,thisisamajorlimitationofVQcodewordsearch.Itlimitsthefidelityofcodingforrealtimetransmission.AfullsearchalgorithmisappliedinVQencodingandrecognition.Itisatimeconsumingprocesswhenthecodebooksizeislarge.Inthecodewordsearchproblem,assigningonecodewordtothetestvectormeansthesmallestdistortionbetweenthecodewordandthetestvectoramongallcodewords.GivenonecodewordCandthetestvectorXinthek-dimensionalspace,thedistortionofthesquaredEuclideanmetriccanbeexpressedasfollows:D(X,C)MO•-c)2i=1WhereC={ci,c2, ,ck}andX={x1,,x2, ,xk}Therearethreewaysofgeneratinganddesigningagoodcodebooknamelytherandommethod,thepair-wisenearestneighborclusteringandthesplittingmethod.Awidevarietyofdistortionfunctions,suchassquaredEuclideandistance,Mahalanobisdistance,Itakura-Saitodistanceandrelativeentropyhavebeenusedforclustering.TherearethreemajorproceduresinVQ,namelycodebookgeneration,encodingprocedureanddecodingprocedure.TheLBGalgorithmisanefficientVQclusteringalgorithm.Thisalgorithmisbasedeitheronaknownprobabilisticmodeloronalongtrainingsequenceofdata.Linde-Buzo-Gray(LBG)algorithmTheLBGalgorithmisalsoknownastheGeneralisedLloydalgorithm(GLA).Itisaneasyandrapidalgorithmusedasaniterativenonvariationaltechniquefordesigningthescalarquantizer.Itisavectorquantizationalgorithmtoderiveagoodcodebookbyfindingthecentroidsofpartitionedsetsandtheminimumdistortionpartitions.InLBG,theinitialcentroidsaregeneratedfromallofthetrainingdatabyapplyingthesplittingprocedure.Allthetrainingvectorsareincorporatedtothetrainingprocedureateachiteration.TheGLAalgorithmisappliedtogeneratethecentroidsandthecentroidscannotchangewithtime.TheGLAalgorithmstartsfromoneclusterandthenseparatesthisclustertotwoclusters,fourclusters,andsoonuntilNclustersaregenerated,whereNisthedesirednumberofclustersorcodebooksize.Therefore,theGLAalgorithmisadivisiveclusteringapproach.Theclassificationateachstageusesthefull-searchalgorithmtofindthenearestcentroidtoeachvector.TheLBGisalocaloptimizationprocedureandsolvedthroughvariousapproachessuchasdirectedsearchbinary-splitting,mean-distance-orderedpartialcodebooksearch[Lindeetal.,1980,Modhaetal.,2003],enhanceLBG,GA-basedalgorithm[Tzu-ChuenLuetal.,2010,Chin-ChenChangetal.2006],evolution-basedtabusearchapproach[Shih-MingPanetal.,2007],andcodebookgenerationalgorithm[Buzoetal.,1980].Inspeechprocessing,vectorquantizationisusedforinstanceofbitstreamreductionincodingorinthetasksbasedonHMM.Initializationisanimportantstepinthecodebookestimation.TwoapproachesusedforinitializationareRandominitialization,whereLvectorsarerandomlychosenfromthetrainingvectorsetandInitializationfromasmallercodingbookbysplittingthechosenvectors.ThedetailedLBGalgorithmusingunknowndistributionisdescribedasgivenbelow:Step1:Designa1-vectorcodebook.Setm=1.CalculatecentroidC=-zTXWhereTisthetotalnumberofdatavectors.Step2:Doublethesizeofthecodebookbysplitting.DivideeachcentroidCintotwoclosevectorsC=Cx(1+8)andC.=Cx(1-5),1<i<m.Here8isasmallfixedperturbationscalar.Letm=2m.Setn=0,herenistheiterativetime.Step3:Nearest-NeighborSearch.Findthenearestneighbortoeachdatavector.PutX.inthepartitionedsetPifCisthenearestneighbortoX.Step4:FindAverageDistortion.AfterobtainingthepartitionedsetsP=(P,1<i<m),Setn=n+1iCalculatetheoverallaveragedistortionD广T以呵(D:i),C)WhereP={X(),X(),……,X()}i1 2 TStep5:CentroidUpdate.FindcentroidsofalldisjointpartitionedsetsPbyiC=—zTiX(i)1T j-ijiStep6:Iteration1.If(D-D)/D>s,gotostep3;otherwisegotostep7and£isathreshold.Step7:Iteration2.Ifm=N,thentakethecodebookCasthefinalcodebook;otherwise,gotostep2.HereNisthecodebooksize.TheLBGalgorithmhaslimitationslikethequantizedspaceisnotoptimizedateachiterationandthealgorithmisverysensitivetoinitialconditions.ClassicalK-meansAlgorithmTheK-meansalgorithmisproposedbyMacQueenin1967.Itisawellknowniterativeprocedureforsolvingtheclusteringproblems.ItisalsoknownastheC-meansalgorithmorbasicISODATAclusteringalgorithm.Itisanunsupervisedlearningprocedurewhichclassifiestheobjectsautomaticallybasedonthecriteriathatminimumdistancetothecentroid.IntheK-meansalgorithm,theinitialcentroidsareselectedrandomlyfromthetrainingvectorsandthetrainingvectorsareaddedtothetrainingprocedureoneatatime.Thetrainingprocedureterminateswhenthelastvectorisincorporated.TheK-meansalgorithmisusedtogroupdataandthegroupscanchangewithtime.ThealgorithmcanbeappliedtoVQcodebookdesign.TheK-meansalgorithmcanbedescribedasfollows:Step1:RandomlyselectNtrainingdatavectorsastheinitialcodevectorsC,i=1,2, ,NfromTtrainingdatavectors.Step2:ForeachtrainingdatavectorX.,j=1,2, ,TassignX.tothepartitionedsetSifi=argminD(X,C)Step3:ComputethecentroidofthepartitionedsetthatiscodevectorusingWhere\s\denotesthenumberoftrainingdatavectorsinthepartitionedsetS.Ifthereisnochangeintheclusteringcentroids,thenterminatetheprogram;otherwise,gotostep2.TherearevariouslimitationsofK-meansalgorithm.Firstly,itrequireslargedatatodeterminethecluster.Secondly,thenumberofcluster,K,mustbedeterminedbeforehand.Thirdly,ifthenumberofdataisasmallitdifficulttofindrealclusterandlastly,asperassumptioneachattributehasthesameweightanditquitedifficulttoknowswhichattributecontributesmoretothegroupingprocess.Itisanalgorithmtoclassifyortogroupobjectsbasedonattributes/featuresintoKnumberofgroup.Kispositiveintegernumber.Thegroupingisdonebyminimizingthesumofsquaresofdistancesbetweendataandthecorrespondingclustercentroid.ThemainaimofK-meanclusteringistoclassifythedata.Inpractice,thenumberofiterationsisgenerallymuchlessthanthenumberofpoints.ProposedModifiedK-meansLBGAlgorithmTheproposedalgorithmsobjectiveistoovercomethelimitationsofLBGalgorithmandK-meansalgorithm.TheproposedmodifiedKmeansLBGalgorithmisthecombinationofadvantagesofLBGalgorithmandK-meansalgorithms.TheKmeansLBGalgorithmisdescribedasgivenbelow:Step1:RandomlyselectNtrainingdatavectorsastheinitialcodevectors.Step2:Calculatetheno.ofcentroids.Step3:Doublethesizeofthecodebookbysplitting.Step4:Nearest-NeighborSearch.Step5:FindAverageDistortion.Step6:Updatethecentroidtillthereisnochangeintheclusteringcentroids,terminatetheprogramotherwisegotostep1.^.ExperimentationandResultsTheTI46database[NIST,1991]isusedforexperimentation.Thereare16speakersfromthem8malespeakersand8femalespeakers.Thenumbersofreplicationsare26forutterancebyeachperson.Thetotaldatabasesizeis4160utterancesofwhich1600sampleswereusedfortrainingandremainingsamplesareusedfortestingof10wordsthatarenumbersinEnglish1to9and0aresampledatarateof8000Hz.Afeaturevectorof12-dimensionalLinearPredictingCodingCepstrumcoefficientswasobtainedandprovidedasaninputtovectorquantizationtofindcodewordsforeachclass.TherearefivefiguresshowscomparativegraphsofthedistortionmeasureobtainedusingLBGalgorithmandK-meansalgorithmandproposedK-meansLBGalgorithm.ThedistortionmeasureobtainedbytheproposedalgorithmissmallestascomparedtotheK-meansalgorithmandtheLBGalgorithm.TheproposedmodifiedKmeanLBGalgorithmgivesminimumdistortionmeasureascomparedtoK-meansalgorithmandLBGalgorithmtoincreasetheperformanceofthesystem.Thesmallestmeasuregivessuperiorperformanceascomparedtoboththealgorithmsasisincreasedbyabout1%to4%foreverydigit.7.ConclusionTheVectorQuantizationtechniquesareefficientlyappliedinthedevelopmentofspeechrecognitionsystems.Inthispaper,theproposedanovelvectorquantizationalgorithmcalledK-meansLBGalgorithm.Itisusedefficientlytoincreasetheperformanceofthespeechrecognitionsystem.TherecognitionaccuracyobtainedusingK-meansLBGalgorithmisbetterascomparedtoK-meansandLBGalgorithm.TheaveragerecognitionaccuracyofK-meansLBGalgorithmismorethan2.55%usingK-meansalgorithmwhiletheaveragerecognitionaccuracyofK-meansLBGalgorithmismorethan1.41%usingLBGalgorithm.
DistortionmesaLirctorcontroidK=4usingK-means,LP,GandZEC-mcQnsLP.G-ctlgonthm肖SEWa肖SEWau-sssMU.3bU.3O.?0.052 34567S9OALL—A—K-meanEiLBG2 34567S9OALL—A—K-meanEiLBG■LBG.K-meansjdiisrtci-'ti■□u.imeaspireFi:n~ id3Cjdiisrtci-'ti■□u.imeaspireFi:n~ id3C—MuMirigEC-mmm二与〉sai■:' an»UB-(3-al^oritlT.ii-Figure2.ComparativegraphforcentroidK=8Figure4.ComparativegraphforcentroidK=32T?ji^Li_oLicwiiiiclil3_ii-cforccTiLivjidTC=3Zu^>izi^IC-ixicliiit;,undIC-uFigure4.ComparativegraphforcentroidK=32T?ji^Li_oLicwiiiiclil3_ii-cforccTiLivjidTC=3Zu^>izi^IC-ixicliiit;,undIC-uiuliiiuLjB-Oal^oi'iLlnnI2>i^LviLiun Lvicd<i】Liurd上二ubaixE2iin&9<3*sxnd-TLin^uiiAbL^O'ixl)=;k/i.xUmiiDigitsFigure5.ComparativegraphforcentroidK=64MS图gwsM中文译文:基于改进矢量量化K-均值LBG算法的语音识别摘要矢量量化的主要任务是产生良好的码本。原始图案和重建模式之间的失真度量应该是最小的。在本文中,提出使用的算法称为改进的K-均值LBG算法,取得了良好的码本。该方法在小词汇量任务中有很好的表现。关键词:K-均值算法;LBG算法;矢量量化;语音识别引言讲话是沟通人与人之间最自然的方式。很多人都是通过手机以及其他的通讯工具用一个真实的方式进行交换信息[L.R.Rabineretal.,1993]。矢量量化(VQ)是语音编码,图像编码,语音识别,语音合成和说话人识别中使用的最基本的和最成功的技术[S.Furui,1986]。这些技术在讲话中首先分析应用,其中大型向量空间映射到有限数量的区域空间。VQ技术通常应用于开发离散或半连续HMM的语音识别系统。在VQ中,信号样本或参数的有序集合可以有效地匹配输入矢量在预定的类似码本的模式或码矢(码字)的编码[Tzu-ChuenLuetal.,2010]。在各种学科中VQ技术也被称为数据聚类方法。它是一个无监督的学习过程,被广泛用于许多应用中。数据聚类方法可归类为硬质和软聚类方法。这些都是基于一个称为布雷格曼分歧[ArindamBanerjeeetal.,2005]失真函数质心为基础的参数化聚类技术的大类。在硬聚类中每一个数据点获得的数据属于不相交的分割,而每一个数据点具有一定的概率是属于具有各分区的软聚类的分区中的一个。该参数的聚类算法由于它的简单性和可扩展性非常受欢迎。硬聚类算法是基于迭代搬迁方案。经典的K-均值算法是基于欧氏距离和基于板仓斋藤距离的Linde-Buzo-Gray(LBG)算法。矢量量化技术的性能取决于代表矢量的码本的良好的存在。在本文中,一个高效的VQ码本设计算法称为改进K-均值LBG算法。该算法相比传统的K-均值算法和LBG算法具有优越的性能。第2节描述了矢量量化的理论细节。第3节阐述LBG算法。第4节解释经典的K-均值算法。第5节强调提出改进的K-均值LBG算法。实验工作和结果将在第6节和文末提出的结论性意见进行讨论。矢量量化数据压缩的主要目标是减少比特率的传输或存储数据,同时保持必要的数据的保真度。特征向量可以表示包括线性预测编码(LPC)系数在内的多个不同的可能的语音编码参数,以便对倒谱系数的确定。VQ可以看作标量量化的一种矢量量化的概括。VQ编码器编码一个给定的k维数据向量与一个小得多的子集。该子集C被称为码本,它的元素匕被称为码字、码向量、向量复制、原型或设计样品。唯一的索引i被发送到解码器。该解码器具有相同的码本作为编码器和解码是由查表程序操作。常用的矢量量化是基于称为最近邻Voronoi图或最近邻矢量量化。无论是经典的K-均值算法还是LBG算法都属于类近邻量化。模式匹配的一个关键组成部分是两个特征向量之间相异的测量。相异的测量满足几个性能指标,如对称性和三角不等式性质。每个指标有三个主要特点,如计算复杂性,分析性和可追踪性功能评估的可靠性。在语音处理中使用的指标是闵可夫斯基度量[J.S.Panetal.1996]。闵可夫斯基度量可以表示为Dp(X,Y)=pfg-叶i=1其中X={x1,X2,...,xk}和Y={y1,y2,...,yk}是矢量,p为度量的顺序。欧氏度量和曼哈顿度量是特殊情况的闵可夫斯基指标。这些指标在失真测量功能计算中都是十分必要的。失真度量只是一种满足相异测量的正定属性。有许多种变形的措施,包括欧氏距离,板仓失真测度和似然失真测量等等。欧氏度量[Tzu-ChuenLuetal.,2010]是最常用的,因为它适合距离或变形的物理意义。在某些应用中除法的运算不是必需的。为了避免计算分类,平方欧氏度量采用欧氏度量的模式匹配来代替。二次度量[MarcelR.Ackermannetal.,2010是欧几里德度量的一个重要的概括。加权倒谱失真测度是一种quadratec度量。加权倒谱失真的关键特征是,它均衡的对倒谱系数的每个维度的重要性。在语音识别中,加权倒谱失真,可用于平衡不同的说话者识别器的性能。板仓齐藤失真[ArindamBanerjeeetal.,2005]通过使用他们的频谱密度测量计算两个输入向量之间的失真。矢量量化器的性能可以通过一个失真度量D,它是一个非负的成本D(X,X),与量化任何输入矢量X.中的再现矢量X.关联进行评估。通常情况jj j j下,欧几里得失真度量被使用。一个量化器的性能总是限定输入矢量和最后再现的载体,其中E表示期望算子之间的平均失真D=E[D(Xj,X顶)]。通常情况下,如果平均失真小,则对量化器的性能将是一件好事。矢量量化的另一重要因素是该码字的搜索问题。矢量维数成倍增加,相应的搜索复杂性随之增加,这是VQ码字搜索的一个主要限制。它限制了编码实时传输的保真度。一个完整的搜索算法是应用在VQ编码和识别中。当码本大小是大的时候,这是一个耗时的过程。关于码字搜索问题,分配一个码字的测试向量表示所有码字之间的码字和所述测试向量之间的最小失真。给定一个代码字匕和测试向量X的k维空间,平方欧几里德度量的畸变可以表示为如下:D(X,C)=寸(乃-c)2i=1其中C={cl,C2, ,ck}和X={x1,,X2,,xk}有三种方式产生并设计一个好的码本,即随机法,成对最近邻聚类和分割方法。各种各样的变形的功能,如平方欧氏距离,马氏距离,板仓齐藤距离和相对熵已被用于聚类。在VQ中有三个主要环节,即码本的生成,编码程序和解码程序。LBG算法是一种有效的量化聚类算法。这种算法要么是基于一个已知的概率模型或是一个长训练序列的数据。Linde-Buzo-Gray(LBG)算法LBG算法也被称为广义的劳埃德算法(GLA)。它是用来作为设计标量量化器的迭代非变分技术的简易且快速的运算法则。这种矢量量化算法通过寻找分配集和最小失真分割的质心而得出一个好的码本。在LBG算法中,从所有训练数据的应用分裂过程中产生初始质心。在每次迭代过程中所有训练矢量被纳入到判别过程中。GLA算法应用于生成的质心和质心能不随时间变化。GLA算法开始于一个集群,然后分离该集群到两个、四个集群,依此类推,直至所生成的N个集群,其中N是群或码本大小的所需数量。因此,GLA算法是一个分裂的聚类方法。每个阶段的分类使用全搜索算法来找到每一个向量最近的质心。LBG是一个局部优化过程,通过各种方法,如定向搜索二进制分解解决,均值距离排序的局部码本搜索[Lindeetal.,1980,Modhaetal.,2003],提高LBG,基于遗传算法的算法[Tzu-ChuenLuetal.,2010,Chin-ChenChangetal.2006,进化为基础的禁忌搜索算法[Shih-MingPanetal.,2007],和码书生成算法[Buzoetal.,1980]。在语音处理中,矢量量化是用于比特流减少编码的实现或基于HMM的任务。初始化是码本估算的重要一步。用于初始化的两种方法是L向量随机从训练矢量集选择的随机初始化和由分裂所选择的载体从一个较小的码书中选择的选择初始化。使用未知分布的详细LBG算法描述如下:步骤1:设计一个1矢量码本SETm=1。计算质心C=—ZTX1Tj=ij其中T是数据向量的总数步骤2:将码本由分裂的双重大小将每个质心C变成两个亲密的载体C2ii=Cx(1+5)和C=Cx(1-5),1<i<m。这里^是一个小固定摄动标量。令m=2m。设定n=0,这里n是迭代次数。步骤3:最近邻搜索找到最近相邻的每个数据向量。如果C.是近邻于Xj,将X/放入分区集合P。i步骤4:查找平均失真获得分割后的组P=(P,1<i<m),设定n=n+1i计算总体平均失真d广T»礼(D:),C)当P={X(i),X(i),......,Xi)}o步骤5:质心更新通过查找所有不相交的分区设置的P质心iC=—ZTiX(i)1T j-1ji步骤6:迭代1如果(D1-D)/D>£,请转至步骤3;否则转到步骤7,e是一个门槛。步骤7:迭代2如果m=N,则取码本C,作为最后的码本;否则,请转到步骤2。这里,N是所述码本的大小。LBG算法有其局限性,如量化空间没有被优化在每次迭代中,算法对初始条件非常敏感。经典K-均值算法K-均值算法是MacQueen在1967年提出的。它是一种众所周知的迭代过程用于解决聚类问题。它也被称为C-均值算法或基本ISODATA聚类算法。它是一个无监督的学习过程,可以自动根据该条件的质心最小距离为对象进行分类。K-均值算法中,初始质心从训练矢量随机选择的训练向量一次一个被添加到该训练程序。在训练过程结束的最后一个载体结合时。K-均值算法用于组数据和可以随时间变化的群组。该算法可以应用于VQ码本设计。K-均值算法可以被描述为如下:步骤1:从T训练数据向量中随机选择N个训练数据向量作为初始码向量C,i=1,2,......,N。步骤2:对于每个训练数据向量X「j=1,2,......,T,如果i=argmin,D(X"),分配Xj向分区集合S,。步骤3:计算所述划分集是码矢量使用的质心其中,S,表示的训练数据向量中的分区集合S,的数量。如果在该聚类的质心没有变化,则终止程序;否则,请转到步骤2。也有K-均值算法的各种限制。首先,它需要大量的数据来确定集群。其次,集群K的数量必须事先确定。第三,如果一个数据的个数小到最终很难找到实际的簇群,按照假设,每个属性具有相同的重量同时很难知道该属性会提供更多的分组过程。该算法进行分类或基于属性/功能集成到组的K个组对象。K为正整数。分组是通过最小化数据和相应的簇矩心之间的距离的平方的总和进行。K均值聚类的主要目的是对数据进行分类。在实践中,数迭代通常比点的数量要少得多。建议改进K-均值LBG算法该算法的目标是克服LBG算法和K-均值算法的限制。建议修改的K-均值LBG算法是LBG算法和K-均值算法的组合优势。该K-均值LBG算法描述为如下:步骤1:随机选择N个训练数据向量作为初始码向量。步骤2:计算质心的编号。步骤3:通过拆分两倍的码本的大小。步骤4:最近邻搜索。步骤5:查找平均失真。步骤6:更新该重心,直到有一个在聚类质心没有改变,终止程序,否则转到步骤1。实验与结果该TI46数据库[NIST,1991]用于实验。该16扬声器包含8男扬声器和8女扬声器。每个人复制的数字是26话语。总数据库大小是4160句话的1600样本被用于训练和剩余样本用于测试10个英文数字1到9号的测试和和0被采样频率为8000Hz。获得12维的线性特征向量预测编码倒谱系数并作为输入提供给矢量量化找到每个类码字。该5组数据示出了利用LBG算法和K-均值算法获得失真度量的比较图,同时提出K-均值LBG算法。相比K-均值算法和LBG算法,通过该算法得到的失真度量是最小的。相比K-均值算法和LBG算法,该提出修改的K-均值LBG算法所给出最小的失真度量,提高了系统的性能。该最小的量度给出了优异的性能,相比这两个算法对每一个数字增加了1%到4%。结论矢量量化技术有效地应用在语音识别系统的发展。在本文中,提出了所谓的新的矢量量化算法K-均值LBG算法。它被用来有效地提高语音识别系统的性能。相比于K-均值和LBG算法,米用K-均值LBG算法获得的识别精度更好。米用K-均值LBG算法的平均识别精度超出采用K-均值算法2.55%,同样采用K-均值LBG算法的平均识别精度超出采用LBG算法1.41%。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年西师新版九年级地理下册阶段测试试卷含答案
- 2025年沪教版九年级历史上册月考试卷含答案
- 2025年沪教新版选择性必修3化学下册阶段测试试卷
- 2025年沪科版选修一历史下册阶段测试试卷
- 2025年华师大版九年级化学上册阶段测试试卷含答案
- 2025年沪教版九年级历史下册阶段测试试卷
- 2025年外研衔接版九年级地理下册月考试卷含答案
- 2025年农药企业环保责任履行合同4篇
- 二零二五版抵押车借款合同编制指南与实例3篇
- 二零二五年度跨境电商进口货物担保借款合同范本4篇
- 2023年成都市青白江区村(社区)“两委”后备人才考试真题
- 2024中考复习必背初中英语单词词汇表(苏教译林版)
- 海员的营养-1315医学营养霍建颖等讲解
- 《现代根管治疗术》课件
- 肩袖损伤的护理查房课件
- 2023届北京市顺义区高三二模数学试卷
- 公司差旅费报销单
- 我国全科医生培训模式
- 2021年上海市杨浦区初三一模语文试卷及参考答案(精校word打印版)
- 八年级上册英语完形填空、阅读理解100题含参考答案
- 八年级物理下册功率课件
评论
0/150
提交评论