研究了潜在语义分析(lSA)理论及其在连续语音识别中应用的相关技术,在此基础上利用WSJ0文本语料库上构建lSA模型,并将其与3-grAM模型进行插值组合,构建了包含语义信息的统计语言模型;同时为了进一步优化混合模型的性能,提出了基于密度函数初始化质心的k-MEAnS聚类算法对lSA模型的向量空间进行聚类。WSJ0语料库上的连续语音识别实验结果表明:lSA+3-grAM混合模型能够使识别的词错误率相比较于标准的3-grAM下降13.3%。The theory of Latent Semantic Analysis(LSA) for speech recognition is described,and the related techniques for implementing LSA-based language modeling in speech recognition systems are presented.An LSA-based semantic model is constructed on the WSJ0 text corpus.This paper uses the interpolation method to combine this semantic model with conventional 3-gram to form a hybrid language mode(li.e.,LSA+3-gram).To optimize the performance of the hybrid model,it applies k-means algorithm to perform vector clustering in the LSA vector space while the density function is used to initialize the centroid.The constructed hybrid language model outperforms the corresponding 3-gram baseline:Continuous speech recognition experiments conducted on the WSJ0 test corpus show a relative reduction in word error rate of about 13.3%.国家自然科学基金No.60573189;国家高技术研究发展计划(863)No.2006AA01Z139;No.2006AA010107;No.2006AA010108;福建省自然科学基金No.2006J0043---

史晓东

林茜

欧建林

Xiamen University Institutional Repository

2009，45（32）1 引言统计语言模型已成功应用于连续语音识别，其利用统计语言信息指导语音搜索过程，并对搜索空间进行一定的限制，降低声学匹配的盲目性，从而提高语音识别的准确率和效率。N-gram 就是一种应用广泛的统计语言模型。但传统的 N-gram 只考虑了短程距离的历史信息，以邻接词之间的关系预测下一个词的出现概率，主要利用了一个句子中的句法和语法层次上的信息。因此 N-gram 本身仍然存在着局限性，它只能描述句子中词之间的线性关系，无法利用自然语言中的语义信息。要想利用语义信息，则需要考虑句子、段落甚至整个篇章的上下文信息。已成功应用于文本信息检索的潜在语义分析（LatentSemantic Analysis，LSA）为此提供了一条途径。LSA 是一种用于知识获取和展示的计算理论和方法，它使用统计计算的方法对大量的文本集进行分析，从而提取和表示出词的语义关系，这种潜在语义，是词语所有的上下文语境信息的总和。潜在语义分析利用这种潜在的语义结构表示词和文本，将词和文本映射到同一个 R 维的语义空间内进行词与词、文本与文本、词与文本之间的相似关系分析[1]。J.Bellegarda 将此思想应用于语音识别，依据组成识别历史的所有词去预测下一个待识别的词，从而在语音识别过程中融入长距离语义信息[2-3]。该文描述的研究首先利用 LSA 相关技术在 WSJ0 文本语料库构建 LSA 模型，然后利用基于 Chiu 密度函数初始化质心的聚类算法对 LSA 模型向量空间进行 k-means 聚类，接着采用几何均值插值方法将经过聚类处理的 LSA 模型与 N-gram 模型相结合，构建了一种包含语义信息的统计语言模型，并将其应用到语音识别的多道搜索解码过程中。2 基于 LSA 的语言模型构建 LSA 模型时首先需要利用训练语料构造一个词-文档关系矩阵W，这个矩阵通常是高维稀疏矩阵。不妨假设语料潜在语义分析在连续语音识别中的应用欧建林，林 茜，史晓东OU Jian-lin，LIN Qian，SHI Xiao-dong厦门大学 计算机科学系，福建 厦门 361005Department of Computer Science，Xiamen University，Xiamen，Fujian 361005，ChinaE-mail：mandel@xmu.edu.cnOU Jian-lin，LIN Qian，SHI Xiao-dong.Application of latent semantic analysis in continuous speech recognition.ComputerEngineering and Applications，2009，45（32）：111-113.Abstract：The theory of Latent Semantic Analysis（LSA） for speech recognition is described，and the related techniques for imple－menting LSA-based language modeling in speech recognition systems are presented.An LSA-based semantic model is constructedon the WSJ0 text corpus.This paper uses the interpolation method to combine this semantic model with conventional 3-gram toform a hybrid language model（i.e.，LSA+3-gram）.To optimize the performance of the hybrid model，it applies k-means algorithmto perform vector clustering in the LSA vector space while the density function is used to initialize the centroid.The constructedhybrid language model outperforms the corresponding 3-gram baseline：Continuous speech recognition experiments conducted onthe WSJ0 test corpus show a relative reduction in word error rate of about 13.3%.Key words：latent semantic analysis；N-gram；k-means clustering；continuous speech recognition摘 要：研究了潜在语义分析（LSA）理论及其在连续语音识别中应用的相关技术，在此基础上利用 WSJ0 文本语料库上构建 LSA模型，并将其与 3-gram 模型进行插值组合，构建了包含语义信息的统计语言模型；同时为了进一步优化混合模型的性能，提出了基于密度函数初始化质心的 k-means 聚类算法对 LSA 模型的向量空间进行聚类。WSJ0 语料库上的连续语音识别实验结果表明：LSA+3-gram 混合模型能够使识别的词错误率相比较于标准的 3-gram 下降 13.3%。关键词：潜在语义分析；N 元文法；k 均值聚类；连续语音识别DOI：10.3778/j.issn.1002-8331.2009.32.035 文章编号：1002－8331（2009）32-0111-03 文献标识码：A 中图分类号：TP391基金项目：国家自然科学基金（the National Natural Science Foundation of China under Grant No.60573189）；国家高技术研究发展计划（863）（theNational High-Tech Research and Development Plan of China under Grant No.2006AA01Z139，No.2006AA010107，No.2006AA010108）；福建省自然科学基金（the Natural Science Foundation of Fujian Province of China under Grant No.2006J0043）。作者简介：欧建林（1983－），男，硕士研究生，主要研究领域为语音识别，自然语言处理；林茜（1985－），女，硕士研究生，主要研究领域为语音识别，自然语言处理；史晓东（1966－），男，博士，教授，博导，主要研究领域为机器翻译，自然语言处理。收稿日期：2008-12-04 修回日期：2009-02-19Computer Engineering and Applications 计算机工程与应用 111Computer Engineering and Applications 计算机工程与应用2009，45（32）库 T 包含 M 个词、N 个文档，这里用 cij 表示词 wi 在文档 j 中出现的次数，用 ci 表示词 wi 在整个语料库中出现的次数，则 ci=Nj=1Σcij，用 cj 表示文本 j 的词数目，则稀疏矩阵 W 中的每个元素可以表示成下式[2-5]：Wij=（1-εwi）cijcj（1）这里，εwi=-1log NNj=1Σ cijci logcijci，εwi 是词 wi 相应于语料库 T 的熵，反映该词对文本的区分能力，熵越大表明该词在训练语料中的分布越均匀，对文本的区分度就越小。上述的稀疏矩阵，维数通常非常大，因此采用奇异值分解算法（SVD）将高阶稀疏矩阵降解为低阶的矩阵：W≈W赞 =U×S×VT（2）其中，U 为 M×R 的左奇异矩阵亦称为词矩阵，S 为对角奇异值矩阵，V 是一个 N×R 右奇异矩阵亦称为文档矩阵，R 是降维后矩阵的维数，通常 R<<Min（M，N）。经过 SVD 分解后，词汇集中的每个词均可以用矩阵 U 中对应的一行向量来表示，任意两个词之间的语义相似性都可以通过计算这两个词所对应的语义向量之间的余弦距离进行测度。不妨设 C 为词 wi 的上下文信息或历史信息，那么 C 是由 wi之前的 i-1 个词所构成，wi 和 C 之间的相似性可以通过如下公式进行计算：cos（wi，C）= （wi·C）‖wi‖‖C‖（3）其中，wi 表示词 wi 所对应的向量，C 表示上下文 C 所对应的向量，并且 C=i-1t=1Σwt。同时为了后续计算 LSA 概率时校准归一化，需要查找整个词汇集中与上下文 C 之间相似性最小的词 wj：MinCos（C）=minj=1Ncos（wj，C） （4）至此，LSA 概率的初步计算可以通过下式得到：PL（wi|C）= cos（wi，C）-MinCos（C）Nj=1Σcos（wj，C）-MinCos（C）（5）这里减去 MinCos（C）是为了将其中最小的 LSA 概率校准为 0，同时为了使所有词的概率之和为 1，使用Nj=1Σcos（wj，C）-MinCos（C）进行归一化处理。最后概率值取 γ 次方重新归一化，γ 通常取为 7：PL（wi|C）γ= PL（wi|C）γNj=1ΣPL（wj|C）γ（6）由于单独使用 LSA 模型不能准确地描述自然语言，需要将 LSA 模型和 N-gram 进行插值组合。这里，采用了几何平均插值算法，N.Coccaro[4]在其论文中论证了这种插值组合的效果是最优的，插值组合公式如下：P（wi |w1 ，w2 ，…，wi-1）=pL（wi |H（L）i-1）λipN（wi |H（N）i-1）1-λiNj=1ΣpL（wj |H（L）i-1）λipN（wj |H（N）i-1）1-λi（7）其中，H（L）i-1 ={w1 ，w2 ，…，wi-1 }，H（N）i-1 ={wi-n+1 ，…，wi-1 }，λ i 是混合的权重，亦称为 LSA 模型的置信度（Confidence），其值是根据词wi 的不同而动态变化的，λi 通常可表示为：λi=1-εwi2（8）公式（7）中{w1，…，wi-1}是词 wi 的历史信息，在进行语音识别的过程中，依据已获取的识别结果历史信息去预测下一个待识别的词时，就可不再像 N 元文法那样只能利用相邻最近 N-1 个词的信息，而是综合考虑，对组成识别历史的所有词向量予以加权平均作为识别历史向量，从而融入长距离语义信息。以{w1，w2，…，wi-1}和 H（L）i-1 分别表示 i-1 时刻所获得的词向量和相应的历史向量，{w1，w2…，wi-1，wi}和 H（L）i 分别表示 i 时刻所获词向量和相应的历史向量，εwi表示词 wi所对应的熵，根据 H（L）i =1iij=1Σwj（1-εwj）可得：H（L）i =i-1i H（L）i-1+1i wi（1-εwi） （9）作为语音识别时历史向量的在线更新公式，而不用每次都进行大量的词向量运算；同时为了减小久远历史对当前上下文的语义信息的影响，引入了一个参数 δ 至公式（9）中来控制上下文区间的选择，通常 δ 的取值范围为（0，1]，于是式（9）又表示为：H（L）i =i-1i δ·H（L）i-1+1i wi（1-εwi） （10）3 LSA 向量空间聚类由上述 SVD 分解得到了一个语义向量空间，在这个向量空间中每个词都表示为 1 个 R 维的向量，由此对语义向量空间进行聚类，将语义相近的词聚成一类，这样的优势在于可以进一步解决数据的稀疏性。这里采用 k-means 聚类算法对向量空间进行聚类，其中距离测度可以使用欧拉距离、余弦距离等方法。k-means 均值聚类算法对初值的依赖性很强，初值选取的不同往往导致聚类结果存在很大差异。为了解决这个问题，提出一种基于 Chiu 密度函数[6]的聚类初值选择法，利用 Chiu 密度函数在一个有 n 个数据样本{x1，x2，…，xn}的向量空间 S 中选择处于最高密度区域的数据对象作为第 1 个聚类中心，其中数据对象即样本点处 xi 的密度函数为：Di=nk=1Σ 11+fd‖xi-xk‖2 ，i=1，2，…，n （11）其中，fd =4R2d，而 Rd =121n（n-1）nk=1Σni=1Σ‖xi -xk‖2姨 。由式（11），在 xi 周围样本点越密集，则 Di 值越大，故 Di 可以用来表示样本空间中样本点的密集程度，令 D*=Max{Di，i=1，2，…，n}，对应的样本点取为第 1 个初始类中心 c1；取距离 c1 最远的一个点作第 2 个聚类中心 c2；计算 S 中各数据对象 xi 到 c1、c2 的距离d（xi，c1）、d（xi，c2），c3 为满足 Max（Min（d（xi，c1），d（xi，c2）））的数据对象 xi；ck 为满足 Max（Min（d（xi，c1），d（xi，c2），…，d（xi，ck-1）））的数据对象 xi；依次得到 k 个初始聚类中心，从这 k 个聚类中心出发，应用 k-means 聚类算法，得到一个聚类集合{Ck，1≤k≤K}，其中 K 为聚类的个数，则词 wq 的 LSA 概率为：Pr（wq|d軌q-1）=Kk=1ΣPr（wq|Ck）Pr（Ck|d軌q-1） （12）其中，d軌q-1 为词 wq 的历史信息。公式（12）中 Pr（Ck|d軌q-1）的计算类1122009，45（32）（上接 110 页）[2] Pawlak Z，Wong S K M，Ziarko W.Rough sets：Probabilistic versusdeterministic approach[J].Computational Intelligence，1988，29：81-95.[3] 张文修，梁怡，吴伟志.信息系统与知识发现[M].北京：科学出版社，2003.[4] 苗夺谦，胡桂荣.知识约简的一种启发式算法[J].计算机研究与发展，1999，36（6）：681-684.[5] 王国胤，于洪，杨大春.基于条件信息熵的决策表约简[J].计算机学报，2002，25（7）：759-766.[6] 蒋瑜，王鹏.基于差别矩阵的属性约简完备算法[J].计算机工程与应用，2007，43（19）：185-187.[7] 王加阳，高灿.改进的基于差别矩阵的属性约简算法[J].计算机工程，2009，35（3）：66-67.[8] 支天云，苗夺谦.二进制可辩别矩阵的变换及高效属性约简算法的构造[J].计算机科学，2002，29（2）：140-142.[9] 徐章艳，杨炳儒，宋威，等.基于区分对象对集的快速求核算法[J].系统工程与电子技术，2008，30（4）：731-734.[10] 徐章艳，杨炳儒，郭燕萍，等.基于信息熵的快速求核算法[J].小型微型计算机系统，2007，28（2）：279-282.似于公式（6），只是将其中的词 wq 变为类的质心 Ck，而 Pr（wq|Ck）则表示词 wq 与类质心 Ck 的距离，并且满足Kk=1ΣPr（wq|Ck）=1。4 实验与结果通过连续语音识别任务来测试 LSA+N-gram 混合模型的性能。实验所选用的语料库为 WSJ0，WSJ0 是一个商业新闻领域的语料库；实验中的文本语料库使用的是 WSJ0 中语言模型训练文本，由约 87 000 篇文章构成，词汇集使用的是 WSJ0 中自带的 20 000 个词汇；实验中的语音识别系统是 HTK3.4 语音识别工具包。首先利用文本语料库构建一个高维稀疏的词-文档矩阵，然后利用 SVDPACKC[7]工具包来对矩阵进行 SVD 分解；SVDP－CAKC 对于 SVD 分解有多种方法，实验中使用的是单向量Lanc－zos 方法。在 SVD 分解过程中，采用了不同的维数R 进行实验，最后发现当 R 取 125 时，所得的 LSA 模型能获得最佳的性能。与此同时，利用语言模型建模工具在相同文本语料库上创建3-gram 语言模型。在连续语音识别实验中，通过比较混合模型和标准 3-gram获得的词错误率来评测模型的性能。实验中声学模型采用HMM，所有 HMM 都由 3 个自左向右的状态构成，每个状态的高斯分量个数都取 32。声学模型的训练集为 WSJ0 中的SI_TR_S集合（8 个说话人，共计 7 200 个句子）；测试集采用的是 SI_ET_20测试子集（8 个说话人，每人约 40 句，共计 331句）；语音文件均被编码成 39 维的特征矢量，包括 13 维 MFCC 系数及其一阶、二阶差分。实验中首先利用 HTK 中的HVite 识别命令并结合WSJ0 中自带的 2-gram 来对每个语音句子产生 40 个候选识别句子，然后利用重估程序通过使用不同的语言模型对这些候选句子进行重新概率计算，挑选出最佳的句子。实验中分了 4 种测试情形：（1）单用 3-gram 进行重估；（2）利用 3-gram+LSA 进行重估，但无聚类；（3）利用 3-gram+LSA 进行重估，并对向量空间聚类，聚类数为 100，随机选取初始类质心；（4）利用 3-gram+LSA 进行重估，并对向量空间聚类，聚类数 100，利用基于Chiu 密度函数的方法选取初始类质心。实验测试结果如表 1：从表 1 可以得到，在情形（4）中 LSA+3-gram 模型获得的词错误率相对于标准 3-gram 下降了 13.3%。与此同时，可以通过进一步对比分析识别结果来确定 LSA 是否真的能够利用语义信息来提高语音识别的准确率：在实验测试集中有一个语音句子，3-gram获得的识别结果为“THE STATE OF THE UNIVERSEIS STILL A MYSTERY”，而 3-gram+LSA 获得的识别结果为“THE FATE OF THE UNIVERSE IS STILL A MYSTERY”，这两个句子从语法上都是正确的，而且就单句语义而言似乎也是正确的，但是通过分析该语音句子的语境发现在其前文中包含如下句子“ASTRONOMERS SAY THAT THE EARTH’S FATEIS SEALED”，因而通过语境即语义信息可知 LSA+3-gram 的识别结果更符合语境，因而是正确的。从这个例子可以看出潜在语义分析确实能够利用语境信息在一定程度上辅助 N-gram提高语音识别的准确率。5 结论描述了一种基于 LSA 的语言模型建模方法，这种方法通过分析大量文本中词语使用的关联关系提取出潜在的语义空间结构并有效地获取和表示词汇的语义信息，将这种潜在语义信息与 N-gram 相结合，形成一个既包含短距离的句法结构信息又包含长距离的语义信息的混合语言模型；同时为了进一步优化模型的性能，还提出使用基于 Chiu 密度函数初始化聚类中心的 k-means 聚类算法对 LSA 向量空间进行聚类。WSJ0 语料库上的连续语音识别实验结果表明，相比较于标准的 3-gram语言模型，词错误率相对下降 13.3%，明显提高了连续语音识别的准确率。参考文献：[1] 盖杰，王怡.潜在语义分析理论及其应用[J].计算机应用研究，2004（3）：9-20.[2] Bellegrada J R.Large vocabulary speech recognition with multi -span statistical language models[J].IEEE Trans Speech Audio Pro－cessing，2000，8：76-84.[3] Bellegrada J R.A multi-span language modeling framework for largevocabulary speech recognition[J].IEEE Trans Speech Audio Process－ing，1998，6：456-467.[4] Coccaro N.Towards better integration of semantic predictors in sta－tistical language modeling [C]//Proc of ICSLP98，Sydney，1998，6：2403-2406.[5] Coccaro N.Latent semantic analysis as a tool to improve automaticspeech recognition performance[D].Boulder：University of Colorado，2005.[6] 毛韶阳，李肯立.优化 K-means 初始聚类中心研究[J].计算机工程与应用，2007，43（22）：179-181.[7] Berry M.SVDPACKC（Version 1.0） user’s guide，Tech Rep CS-93-194[R].Univ of Tennessee，1993.测试情形测试 1测试 2测试 3测试 4词错误率（WER）/（%）7.877.436.976.82表 1 实验测试数据欧建林，林 茜，史晓东：潜在语义分析在连续语音识别中的应用 113

Application of latent semantic analysis in continuous speech recognition

http://dspace.xmu.edu.cn/bitstream/handle/2288/122509/%e6%bd%9c%e5%9c%a8%e8%af%ad%e4%b9%89%e5%88%86%e6%9e%90%e5%9c%a8%e8%bf%9e%e7%bb%ad%e8%af%ad%e9%9f%b3%e8%af%86%e5%88%ab%e4%b8%ad%e7%9a%84%e5%ba%94%e7%94%a8.pdf?sequence=1&isAllowed=y

Application of latent semantic analysis in continuous speech recognition

Abstract

Similar works

Full text

Available Versions

Xiamen University Institutional Repository