一、基于多带HMM和神经网络融合的语音识别方法的信道鲁棒性(论文文献综述)
汪伟[1](2021)在《基于深度学习的声纹识别关键技术研究》文中指出随着生活智能化的进程,说话人识别与说话人属性分类在身份认证、公共安全以及智能家居等领域有着越来越广泛的应用,但由于实际应用场景的复杂性,现有基于深度学习的声纹识别和说话人属性分类技术虽然能在静音的理想环境中能够达到较高的识别效果,其对于环境噪声的鲁棒性和识别准确率还有待提高。本文旨在研究具有高鲁棒性说话人识别和说话人属性分类系统,提升其在复杂环境中的准确率,具体研究内容如下:1.提出基于注意力机制改进残差网络和改进三元组损失的说话人识别模型,以拥有更多说话人语音特征的语谱图作为网络的输入,利用改进三元组损失C-Triplet控制类间和类内的差距,并对类内距离加以约束,以得到更好的识别性能。最后分别在中文纯净语音集、英文纯净语音集和英文噪声语音集上进行验证,证明了该网络对噪声和语种的鲁棒性。2.提出设计基于深度置信网络的特征提取器,通过特征提取器提取语音的Bottleneck特征,并将其与MFCC拼接成混合特征B-MFCC,然后设计基于Dense Net网络和B-MFCC特征的说话人属性分类模型。并在Mozilla Common Voice选取了部分数据集,与基于传统的MFCC特征的说话人属性分类进行了对比实验,验证了其性能。3.基于以上的工作以及目标用户的需求分析,本文设计并实现了声纹识别原型系统,能够满足基本的声纹识别任务并对系统完成了相关测试。
李铚[2](2016)在《越南语旅游领域问句语音识别方法的研究》文中研究说明伴随着科学技术的不断发展,目前已经将机器人运用到了生产生活中的各个方面,从而使其替代人类进行繁琐和高危的的任务,使得人们生活质量得到不断的提高。而语音识别作为人机交互技术的重要环节,越来越受到研究者的关注[1]。目前对越南语语音识别方面的研究主要集中在声学模型、语言模型等关键技术上。但在不同的领域当中,无论是声学层面还是语言层面,不同的领域术语之间都存在着明显的差异性,导致这些通用领域的语音识别方法很难直接适用于特定领域。本文就是针对越南语旅游领域问句语音识别系统构建方法的研究。主要探讨了基于领域术语声学特性的声学模型构建方法和融入领域知识的语言模型构建方法。本文的主要工作包括以下几个部分:(1)研究了针对越南语旅游领域问句的声学模型构建方法。该方法首先确定了以音素作为识别基元,从而使得所构建的声学模型规模适中。然后对语音语料库中音素的上下文分布情况进行了分析和统计,确定了构建三音素声学模型来解决越南语协同发音的问题。接着,建立了基于音素发音特性的决策树问题集,采用决策树状态共享策略对声学模型的训练过程进行优化,从而解决了数据稀疏的问题。最后,通过对比试验,验证了基于决策树状态共享的三音素声学模型构建方法的有效性。(2)研究了针对越南语旅游领域问句的语言模型构建方法。该方法首先确定了适合于旅游领域问句语音识别的语言模型类别。然后,根据旅游领域问句中询问对象的不同对问句形式进行了划分。其次,对越南语问句所需要遵循的语法规则进行了总结。接着,基于这些语法规则对不同形式的问句结构进行了统计,确定了语言模型中的具体描述内容,从而构建了适合于旅游领域问句识别的规则语言模型。(3)通过实验,采用不同的评价指标对旅游领域问句语音识别系统的性能进行了分析与总结,验证了此方法的有效性。
熊世富[3](2014)在《集外词的语音检索方法研究》文中研究指明语音检索是多媒体信息检索的重要研究方向,基于大词汇连续语音识别的检索算法是当前语音检索中的主流算法。集外词是一些经常被用户检索但是不在识别词典中的词,相比于集内词检索,集外词检索性能严重下降是语音检索面临的一个主要挑战。集外词检索的主要难点有:发音不确定性,词性质的多样性,声学模型和语言模型的高度弱模型性。为了解决集外词问题,提高集外词检索性能,本文首先着力于建立一个高性能的子词识别器。本文采用多种训练算法提高语音识别率,在基于混合高斯模型-隐马尔科夫模型(GMM-HMMs)的声学建模中,采用最小音素错误(Minimum Phone Error, MPE)准则来提高模型区分性;进一步,采用深度神经网络(Deep Neural Network, DNN)声学模型替代GMM模型,并使用跨语种训练和矫正线性单元(Rectified Linear Units, ReLUs)激活函数改善DNN声学模型性能;针对小语种问题,提出使用自动生成问题集来减少声学模型的数量。通过以上方法,明显提升了声学模型的建模能力。针对集外词被词识别系统错误识别的问题,使用音素、音节、词片三种子词单元作为解码单元,降低集外词语言模型的弱模型性,提升解码过程中集外词的音素识别率。其次,在集外词的子词检索系统建立过程中,考虑到三种子词间的性质差异,本文对三种子词检索系统使用不同的检索策略。对基于音素的STD系统使用基于加权有限状态转换机(weighted finite state transducer, WFST)完全匹配检索的方法降低虚警;对基于词片和音节的STD系统使用模糊匹配检索减少漏警。为了处理集外词词性质的多样性,本文使用词项相关置信度归一化方法对得分进行规整。另外,考虑到不同识别系统的输出的互补性,本文提出了基于线性逻辑回归的多系统融合策略,进一步提高置信度的可靠性。使用这些改进算法,本文分别在NIST STD2006英语关键词检索数据库和NIST STD2013越南语关键词检索数据库上进行了实验,获得了明显的关键词检索性能提升。
周俊[4](2012)在《基于HMM连续语音识别中关键技术的改进算法研究》文中研究说明语音是人类最自然、最方便的交流工具。在现场交流中,它传播速度快,可以在黑暗中便捷的传播,是图片、文字或者按钮等其他视觉、触觉信息无法替代的工具。随着计算机技术的发展,和计算机进行语言交流,使之理解人类语言成为人们的梦想和追求,而实现它的首要前提是使机器能够识别人类语言,即语音识别。语音识别技术已取得巨大成就,形成了隐马尔可夫模型(HMM)等有效识别技术,但语音识别仍存在着一系列问题亟待解决与改进,如对环境和说话人的自适应性、抗噪声干扰性、声音模型和语言模型的完善化、训练工作量和识别速度的优化等。本文以提高语音识别对环境的适应性及优化识别算法为主要目的,基于现代信号处理理论提出了一些新算法和新方案。主要内容和创新性成果如下:1.分析了语音识别技术的现状和现有理论,并指出存在的不足。2.为了降低语音信号特征参数求解算法的复杂性,针对基音周期,本文提出了利用变长短时自相关函数和变长短时平均幅度差函数计算。这些方法通过降低加、乘法计算次数来减少计算量,原理上也体现了数学中滑动平均的思想。仿真实验结果表明,与原有的短时自相关和短时平均幅度差函数方法比较,新算法在估计准确率相同的情况下,可节省50%的计算时间,大大提高了算法的效率。3.针对线谱频率参数,本文分析了求解原理和计算过程,提出先求的根来确定参数的所在区间,然后再利用二分法进一步迭代缩小区间的新算法,相较于固定步长的算法,迭代次数要少很多。仿真实验及分析表明,新算法与其他三种传统算法相比,各种运算次数明显减少,乘法运输量仅为其他算法的13%58%,且更加易于工程实现。4.语音端点的检测是语音识别的一个重要组成部分。传统的基于能量或过零率等特征的语音端点检测,在强噪声环境下,往往不能达到理想效果。实践表明直接通过人眼对语音波形图或频谱图进行端点检测往往比使用传统的自动检测方法更好,所以用图形处理替代人眼识别可得到一种新的端点检测方法,实验表明该方法效果良好。5.针对HMM方法的训练经常趋于局部优化的缺点,提出采用禁止搜索算法进行HMM识别的全局优化。利用禁止搜索算法的短期记忆、广义启发的全局搜索特点,使HMM模型参数达到全局优化,论文给出了禁止搜索算法作用于HMM的详细步骤,统计仿真实验结果表明,TS-HMM能更好的达到全局最优。
李邵梅[5](2011)在《文本无关短语音说话人识别技术研究》文中指出近年来,随着应用需求的推进和相关理论的发展,说话人识别的研究取得了很大的进展,国内外研究机构正在积极推动其新理论的研究、新方法的实验和实用化进程,其中,利用短语音进行训练和识别的研究备受关注。从2004年开始NIST(美国国家标准与技术署)在举办说话人识别评测(SRE)时就按照语音长度划分测试项,在语音长度最短的测试项中,训练和识别的语音长度都不大于10秒。从评测的结果来看,与语音长度较长的测试项相比,该测试项性能下降严重。这主要是因为目前的说话人识别系统主要采用概率统计模型,识别性能很大程度上依赖于训练语音和测试语音的匹配程度,而通常采用的短时倒谱特征中同时包含说话人信息和语义信息,其中语义信息的差异会影响训练和识别的匹配程度。文本相关的说话人识别性能远优于文本无关的说话人识别的主要原因就在于它保证了训练和识别中的语义是完全匹配的。但是在文本无关的说话人识别中,如果训练和测试语音太短,两者的语义内容可能存在较为严重的失配现象,而现有的语音信号处理技术不能实现语音中的语义信息和说话人信息的分离,所以这是影响文本无关说话人识别性能的重要因素。为了研究语音长度对说话人识别性能的影响,提高短语音的识别性能,本文研究主要基于以下两个思路展开:1、研究如何克服短语音条件下训练和识别语音的语义不匹配对识别性能的影响,并且针对说话人辨认和说话人确认两种应用,分别提出了解决方法。2、研究如何通过从长度有限的语音中提取尽可能多的语音特征,丰富说话人特征的描述,进而提高短语音条件下说话人识别的性能。本课题的主要贡献和创新点包括以下几个方面:1)提出了基于“说话人属性约束”的特征变换方法,通过相对抑制语义信息对短时倒谱特征分布的影响,突出说话人信息在语音特征空间分布中的作用,使同一说话人的特征分布更集中,不同说话人间的区分更明显,从而提高了短语音说话人辨认的识别率。本文利用语音信号服从内蕴的非线性流形结构分布的特点,基于语音特征在空间中的局部几何结构,构建了近邻关系关联包;利用说话人属性约束变换,减少了短时倒谱特征中语义信息对说话人辨认的影响;并推导出了该变换中的显性变换矩阵,在GMM-UBM(Gaussian Mixture Model-Universal Background Model,混合高斯模型-通用背景模型)模型的基线说话人辨认系统进行了测试。在同一数据集上,跟已有的特征变换方法相比,在训练语音长度为10秒,测试语音长度为10秒、8秒、5秒、3秒和2秒时,该方法误识率的相对改善率分别为13.48%、9.58%、8.75%、9.90%和11.92%。2)提出了基于UBM(Universal Background Model,通用背景模型)混元子空间的文本无关说话人确认方法,寻找训练语音和测试语音的超向量中语义匹配的单元,充分利用这部分的识别结果,同时,减少超向量特征中语义不匹配部分的影响,降低了短语音说话人确认中的等错误率。本文根据文本相关的说话人识别的性能要远优于文本无关的说话人识别的性能的客观事实,以及训练语音和测试语音中的语义信息不匹配是影响短语音说话人识别性能的主要原因,提出了基于通用背景模型的混元在空间中分布的近邻关系,通过划分混元子空间的方法将文本无关的说话人识别隐性地转换为基于“语义内容”的说话人识别方法。利用语音特征对混元子空间的归属关系,对训练语音和测试语音进行拆分,基于各子空间内的子超向量识别,实现文本无关到“语义内容”相关的转换,最后通过设计合理的融合方法对各子空间的识别结果进行融合。在同一数据集上,本文提出的说话人确认方法和已有的基于子空间的说话人确认系统相比,在训练语音的长度为10秒,测试语音长度为10秒、8秒、5秒、3秒和2秒时,其等错误率的相对改善率分别为8.67%、10.22%、6.13%、5.00%和6.10%。3)提出了“仿生神经网络激励源”特征,将仿生模式识别的思想引入到说话人激励源建模中,验证了该特征用于说话人识别的有效性,并与基于短时倒谱特征的系统结合,提高了说话人识别的性能。针对现有的基于AANN(Auto-Associate Neural Network,自联想神经网络)方法从LP(Linear Prediction,线性预测)残差中提取激励源特征的不足,提出了基于仿生神经网络的说话人LP残差建模方法,并以此构建了激励源特征和相应的识别系统。该方法避免了传统神经网络中复杂的迭代训练过程,同时利用仿生模式识别的“基于认知而非区分”的思想有效地提高了系统在小样本,也就是短语音条件下的识别效果。在同一数据集上,基于LP残差向量,跟已有的基于AANN的识别方法相比,本文提出的基于仿生神经的识别方法在说话人辨认中,当训练语音的长度为10秒,测试语音长度为10秒、8秒、5秒、3秒和2秒时,其误识率相对改善率分别为6.98%、11.59%、9.67%、9.00%和18.45%。鉴于在说话人识别中,基于LP残差的激励源特征对短时倒谱特征具有很好的互补性,研究了基于短时倒谱特征和激励源特征融合的短语音说话人识别,并设计了基于可信度的短时倒谱特征和激励源特征判决融合方法。通过对不同特征间相关性的度量,研究了说话人识别中LP残差激励源特征对短时倒谱特征的互补性,为说话人识别中激励源特征和短时倒谱特征的结果融合提供了理论依据。针对说话人辨认和说话人确认,分别采用了基于单次识别中各特征识别结果可靠性的动态融合方法和基于不同特征在说话人识别中固有的区分性能的静态融合方法。相对于单一的短时倒谱特征,两种特征的识别结果融合之后,当训练语音的长度为10秒,测试语音长度分别为10秒、8秒、5秒、3秒和2秒时,系统识别性能的相对改善率分别为13.44%、11.11%、10.22%、10.12%和8.95%(说话人辨认)和5.51%、5.02%、10.72%、8.43%和2.55%(说话人确认)。
刘纪平[6](2011)在《多重演化神经网络在语音识别中的应用》文中提出传统的语音识别方法运算量大,而且实现起来较为复杂,加上现有的研究对人类听觉模型的内在机理还没有完全掌握,因此具有黑盒特性的神经网络作为一种新兴的语音识别方法得到了非常广泛的关注。神经网络语音识别系统具有很强的自适应、自学习、自组织能力,且易于实现。BP(误差反向传播网络)算法是目前神经网络训练最常用的学习方法之一,它存在着两个突出的弱点,即收敛速度慢和可能陷入局部极小值点。为了克服这些缺陷,在BP神经网络中引入具有全局搜索能力的遗传算法,将这两种仿生学的理论成果有机的结合起来并应用到各类科研生产领域中,成为了一种新的研究方向。本文将神经网络和遗传算法结合起来应用于语音识别的基础研究中。文中阐述了神经网络和遗传算法的原理和优缺点,深入分析了两者结合使用的必要性和可行性,并针对语音识别的特点提出一种多重演化神经网络的混合模型,利用竞争学习机制进行样本划分,同时采用特征重组自适应的方法来降低计算与存储开销,本方法还可以利用其学习能力的自适应性来保证语音识别系统的性能。然后,针对实际语音识别环节下样本形态多样的特点,提出一种自动增减状态的混合模型状态数确定方法,使模型能够根据样本的形态自动增加或者减少状态数目,并相应地调整混合模型的结构。最后,通过仿真实验建立了相应的语音识别系统,并将其与普通的BP网络语音识别系统进行了比较分析,证明了该识别算法的高效性和方案的可行性。
魏春明[7](2010)在《语音变化分析及其在孤立词识别中的应用》文中研究指明语音识别技术近年来取得了长足的发展,伴随着计算机和手机等体积小巧的便携式设备的普及,尤其是进入网络时代以后,各种基于语音识别的应用不断涌现。特别的,孤立词识别作为语音识别的一种由于其具备计算效率高、存储空间小和易于实现的优点,尤其是在实现中小词汇量的系统时既简单又高效,在特定场合中拥有广泛的应用。但是在实验室环境中表现良好的自动语音识别系统,在实际应用中却不得不面对由通道特性改变、背景噪音的干扰以及说话人特性变化等语音变化因素引起的系统性能严重下降的局面。因此语音变化对于语音识别系统影响的研究已经引起了学术界和工业界的关注。本文在调研引发语音变化的主要因素、孤立词识别技术及鲁棒性语音识别技术研究现状的前提下,在满足语音变化条件的语料库上分析通道特性和说话人情感状态对于语音识别三个层面:特征层、模型层和得分层的影响。然后本文在基于模板的和基于隐马尔可夫模型(HMM)的孤立词识别框架下研究对通道特性和说话人情感状态具备鲁棒性的孤立词识别技术。在基于模板的方法中本文通过基频修正算法、聚类选择模板的方法和通用向量方法(CVA)来提高系统对说话人情感状态的鲁棒性。而在基于HMM的方法中我们通过在特征层进行倒谱均值减和在得分层进行得分规整来提高系统对于通道变化的鲁棒性。实验结果表明这些方法不同程度的提高了孤立词识别系统对于通道变化和说话人情感状态引发的语音变化的鲁棒性。最后我们将鲁棒性孤立词识别技术在实际领域中进行了初步应用。本文的主要工作包括:1.采集与制作了汉语孤立词库MIWAC。2.在不同的语料库上通过多种手段分析了通道特性和说话人情感状态影响语音识别系统的特征分布、模型区分性和得分分布的规律。3.利用语音变化分析结果,在基于模板的和基于HMM的框架下研究了对于通道特性和说话人情感状态具有鲁棒性的孤立词识别技术。4.将提出的鲁棒性孤立词识别技术在移动媒体信息检索和家用电器控制领域实现了初步应用。
王晋飞[8](2009)在《MGDM多模光纤通信系统的研究》文中进行了进一步梳理模式群分集复用(MGDM)利用多模光纤中不同的模式群作为相互独立的信道传输多路信号,可极大地提升短距离多模光纤网络的容量,是降低光接入网成本,升级现有接入网络以实现FTTB甚至FTTH的关键技术。本文对这一新的短距离多模光纤通信技术进行了初步的研究,主要目标是建立系统模型,设计实现2×2的MGDM实验系统并着重解决该系统的信道串扰问题。首先建立了M×N的MGDM线性系统模型,研究了噪声对系统性能的影响;其次研究了选择模式激发技术的原理及实现方法,设计制作了模式群复用器和解复用器;再次将ICA引入MGDM系统作为信道解复用方法,并针对MGDM信道特性创新性地提出利用信道辨识码改进基于负熵的FastICA算法从而克服ICA算法的固有缺陷;之后建立了2×2的IM-DD MGDM实验系统,进行了一系列的传输实验,在离线条件下利用改进的FastICA算法对真实数据进行了解复用,并与迫零法解复用进行比较;最后研究了噪声条件下本文算法与巴特渥兹低通滤波器组合的解复用性能。
付诗[9](2009)在《基于HMM/ANN混合模型的语音识别系统研究》文中提出本文首先对语音识别现状进行了分析,指出抗噪语音识别技术是语音识别系统走向实用化的一个关键性难题。之后详细介绍了语音识别的基本理论,包括系统组成与分类、预处理、特征提取、常用的识别方法等。在此基础上,分析了隐马尔科夫模型和径向基神经网络各自的优点和不足之处,提出了HMM和ANN模型结合用于语音识别的必要性,并对两者常用的各种结合方式进行了总结。根据人类的听觉感知机理,本文引入子带分析方法,提出了一种新的多特征子带HMM/ANN混合模型,该方法采用了与以往子带语音识别不同的结合方式,并采用子带特征和全带特征两种特征参数,首先分别对多个子带特征和一个全带特征建立HMM模型,然后用RBF神经网络对这些HMM模型的识别结果进行融合判决。为了检验算法的有效性,针对非特定人汉语数字孤立词识别,在MATLAB7.0环境下对本文提出的多特征子带HMM/ANN混合模型进行了仿真实验,分析了采用不同的特征参数、子带数目对识别结果的影响,并对传统的混合模型和本文提出的多特征子带混合模型在抗噪性能方面进行了对比实验。结果表明,该方法与传统方法相比不仅具有更好的抗噪性能,而且同时能提高无噪声情况下的识别性能。本文最后针对语音识别的硬件实现问题,采用TI公司的DSP芯片TMS320VC5509,设计了一套基于定点DSP的语音识别系统,该系统功耗低、成本低、体积小便于携带。本文提出的方法与硬件系统对于提高语音识别系统的抗噪鲁棒性以及语音识别系统的商业化实现具有重要的意义。
刘明宇[10](2008)在《多重ANN/HMM混合模型在语音识别中的应用》文中研究说明语音是人类最自然、最熟悉的交互方式,现今语音识别、语音合成等的研究方兴未艾。孤立词识别领域已经取得了非常可喜的成绩,但是,在某些情况下,样本间的差异过大使得训练出的模型很难有好的建模精度,要想获得可以接受的识别率就要对模型做进一步的改进。本文在原有人工神经网络与隐马尔可夫模型(ANN/HMM)相结合的模型基础上研究一种多重混合识别模式作为语音的识别方法,以期可以使用多重模型对差异样本互补的进行建模,取得较好的识别率。人工神经网络(ANN)具有抗噪声、抗变异、自适应、学习能力强、识别速度快等特点,因此将其作为状态级的模型,也就是待识别对象基本单元的模型;隐马尔可夫模型(HMM)具有较强的处理时间序列的能力,故作为时序模式的整体模型。在本方法中,ANN与HMM是帧层面的结合,用ANN输出误差来估计HMM某一状态的输出概率。首先,提出了一种自动增减状态来确定模型状态数的方法。这种方法可以根据训练样本的具体情况自动在适当的位置增加或者减少状态,对建模精度不够的状态进行拆分,对包含数据帧数比较少的状态进行删除,最终达到一个合适的数量。在上述模型的基础上,我们提出了一种多重ANN/HMM混合模型,通过竞争学习机制划分样本,通过自适应特征重组方法来降低系统的存储与计算开销。自适应特征重组方法还可以利用ANN的自适应学习能力来保证系统的性能。以语音识别为实验对象,我们将上述方法与传统方法做了比较。结果表明,这种方法的模型精度和识别率的提高,并不是建立在大量消耗系统资源的基础上的。为了将研究成果实用化,利用上述识别模型及方法,我们开发了一个简单的智能人机交互系统,人们可以利用语音输入向计算机发布命令,交互方式简单自然。从对该系统的使用情况来看,它具有响应速度快,识别率高的特点。
二、基于多带HMM和神经网络融合的语音识别方法的信道鲁棒性(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于多带HMM和神经网络融合的语音识别方法的信道鲁棒性(论文提纲范文)
(1)基于深度学习的声纹识别关键技术研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 研究现状 |
1.2.1 声纹识别研究现状 |
1.2.2 说话人属性分类研究现状 |
1.3 论文工作及结构 |
1.3.1 论文主要工作 |
1.3.2 论文结构 |
第二章 技术原理及理论基础 |
2.1 说话人识别模型 |
2.1.1 说话人识别原理 |
2.1.2 GMM-UBM |
2.2 语音特征提取 |
2.2.1 梅尔倒谱系数 |
2.2.2 语谱图 |
2.2.3 深度表征向量 |
2.3 深度学习相关理论 |
2.3.1 深度学习原理 |
2.3.2 激活函数 |
2.3.3 损失函数 |
2.4 本章小结 |
第三章 基于注意力机制的说话人识别 |
3.1 说话人识别网络设计 |
3.1.1 残差网络设计 |
3.1.2 注意力网络选取 |
3.1.3 基于注意力机制的残差网络改进 |
3.2 基于Triplet loss的模型训练 |
3.2.1 Triplet Loss计算 |
3.2.2 三元组选取策略 |
3.2.3 三元组损失的改进 |
3.3 语音数据的预处理 |
3.3.1 基于短时能量和过零率的端点检测 |
3.3.2 语音特征提取 |
3.4 实验与分析 |
3.4.1 评估指标 |
3.4.2 实验设计 |
3.4.3 实验环境及数据集 |
3.4.4 结果与分析 |
3.5 本章小结 |
第四章 基于DBN-Dense Net的说话人属性分类 |
4.1 基于深度置信网络的特征提取 |
4.1.1 相关特征参数对性别年龄的区分性 |
4.1.2 受限玻尔兹曼机(RBM) |
4.1.3 深度置信网络结构设计 |
4.1.4 DBN网络训练 |
4.1.5 提取Bottleneck特征 |
4.2 基于B-MFCC的分类网络设计 |
4.3 实验与分析 |
4.3.1 评估指标 |
4.3.2 实验设计 |
4.3.3 实验环境及数据集 |
4.3.4 结果与分析 |
4.4 本章小结 |
第五章 声纹识别原型系统实现 |
5.1 系统目标 |
5.2 系统设计 |
5.3 系统测试 |
5.4 本章小结 |
第六章 总结和展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
攻读硕士期间的研究成果 |
(2)越南语旅游领域问句语音识别方法的研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 本文研究内容及结构安排 |
1.3.1 研究内容 |
1.3.2 论文结构安排 |
第二章 语音识别基础理论 |
2.1 语音识别的系统结构 |
2.2 语音识别系统的分类 |
2.3 语音识别中的关键技术 |
2.3.1 预处理 |
2.3.2 特征提取 |
2.3.3 声学模型 |
2.3.4 语言模型 |
2.3.5 模式匹配 |
2.4 本章小结 |
第三章 越南语旅游领域问句语料库的构建 |
3.1 越南语旅游领域问句文本语料库 |
3.1.1 越南语旅游领域术语问句词典构建 |
3.1.2 越南语旅游领域问句文本语料库的构建 |
3.2 旅游领域问句语音语料库的构建 |
3.2.1 录制环境与设备 |
3.2.2 录音人员安排 |
3.3 本章小结 |
第四章 越南语旅游领域问句的声学模型构建方法 |
4.1 引言 |
4.2 适合旅游领域问句的识别基元选择与分析 |
4.2.1 识别基元的选择 |
4.2.2 越南语旅游领域问句的声学特性分析与处理 |
4.3 旅游领域问句上下文相关联的三音子模型构建 |
4.3.1 上下文相关联的三音子模型 |
4.3.2 旅游领域问句中的三音子分析 |
4.3.3 状态共享策略的分析与选择 |
4.3.4 融入领域术语声学特性构建音子类别集 |
4.3.5 决策树的构建 |
4.4 实验结果与分析 |
4.4.1 实验环境 |
4.4.2 实验设置 |
4.4.3 高斯混合模型混合分量数目选择实验 |
4.4.4 对比实验 |
4.5 本章小结 |
第五章 越南语旅游领域问句的语言模型构建方法 |
5.1 引言 |
5.2 基于规则的语言模型 |
5.3 越南语旅游领域问句特点分析 |
5.3.1 询问地点的特指问句分析 |
5.3.2 询问事物的特指问句分析 |
5.4 基于领域术语知识构建规则语言模型 |
5.5 本章小结 |
第六章 识别实验与结果分析 |
6.1 实验环境 |
6.1.1 HTK工具包介绍 |
6.1.2 越南语旅游领域问句语音识别系统的构建 |
6.2 识别结果的评价标准 |
6.3 实验结果及分析 |
6.4 越南语旅游领域问句语音识别系统识别结果分析 |
6.5 本章小结 |
第七章 结论与展望 |
7.1 结论 |
7.2 展望 |
致谢 |
参考文献 |
附录A 硕士期间研究成果 |
附录B 硕士期间所参与项目 |
(3)集外词的语音检索方法研究(论文提纲范文)
摘要 |
Abstract |
插图索引 |
表格索引 |
第1章 绪论 |
1.1 集外词检索的研究背景 |
1.2 集外词检索的研究现状 |
1.3 集外词检索系统框架 |
1.4 任务描述与性能评价指标 |
1.4.1 任务描述 |
1.4.2 语音识别评价指标 |
1.4.3 语音检索评价指标 |
1.5 论文的研究内容及实验用到的数据库 |
1.5.1 研究内容 |
1.5.2 数据库介绍 |
1.6 论文的结构安排 |
第2章 基于子词的大规模连续语音识别 |
2.1 语音识别的基本原理 |
2.2 声学模型 |
2.2.1 声学建模中的基本方法 |
2.2.1.1 基于HMMs的声学模型 |
2.2.1.2 状态绑定 |
2.2.1.3 基于最大似然估计与区分性训练的声学模型 |
2.2.1.4 基于深度神经网络的声学模型 |
2.2.2 低资源条件下的声学模型优化方法 |
2.2.2.1 音调特征提取和有调建模 |
2.2.2.2 自动问题集生成 |
2.2.2.3 跨语种DNN训练与ReLUs激活函数 |
2.2.3 实验结果与分析 |
2.2.3.1 英语的实验结果 |
2.2.3.2 越南语的实验结果 |
2.3 子词语言模型 |
2.3.1 语言模型 |
2.3.2 区分位置信息的音素语言模型构建 |
2.3.3 词片挑选及基于词片的语言模型构建 |
2.3.4 音节划分及基于音节的语言模型构建 |
2.3.5 实验结果与分析 |
2.4 本章小结 |
第3章 基于ngram索引的集外词检索 |
3.1 ngram索引 |
3.1.1 网格的定义 |
3.1.2 非音素网格到音素网格转换 |
3.1.3 基于网格的后验概率置信度 |
3.1.4 ngram索引生成 |
3.2 ngram-WFST完全匹配搜索算法 |
3.2.1 自动机理论基本数学概念 |
3.2.2 加权转换机合成 |
3.2.3 加权转换机确定化 |
3.2.4 加权转换机最小化 |
3.2.5 ngram-WFST搜索算法实现 |
3.2.5.1 索引FST |
3.2.5.2 词典FST |
3.2.5.3 搜索 |
3.3 模糊匹配搜索算法 |
3.4 词项相关置信度规整 |
3.5 实验结果与分析 |
3.5.1 OOV词挑选 |
3.5.2 集外词检索性能 |
3.6 本章小结 |
第4章 多系统融合 |
4.1 系统融合概述 |
4.2 基于线性逻辑回归的多系统融合 |
4.2.1 逻辑回归基本性质 |
4.2.2 基于共轭梯度下降的参数估计 |
4.2.3 线性逻辑回归在语音检索上的应用 |
4.3 实验结果与分析 |
4.4 本章小结 |
第5章 总结与展望 |
5.1 论文总结 |
5.2 研究展望 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的其他研究成果 |
(4)基于HMM连续语音识别中关键技术的改进算法研究(论文提纲范文)
中文摘要 |
ABSTRACT |
主要符号表 |
第一章 绪论 |
1.1 论文选题的目的与意义 |
1.2 语音识别的发展与现状 |
1.2.1 国际语音识别技术 |
1.2.2 国内语音识别技术 |
1.3 目前存在的难题和未来发展的方向 |
1.4 本文主要研究的内容 |
第二章 语音识别概论 |
2.1 语音识别的基本概念 |
2.2 语音分析 |
2.2.1 傅里叶变换频谱分析 |
2.2.2 倒频谱分析 |
2.2.3 线性预测分析 |
2.2.4 小波变换 |
2.2.5 矢量量化 |
2.3 语音识别的特征参数的提取 |
2.3.1 短时平均能量、幅度和过零率 |
2.3.2 基音周期 |
2.3.3 线性预测参数 |
2.3.4 线性预测倒谱参数(LPCC) |
2.3.5 美尔频率倒谱参数(MFCC) |
2.3.6 线谱对参数(LSP) |
第三章 特征参数和端点检测的优化算法 |
3.1 基音周期的优化算法 |
3.1.1 VLAMDF 基音估计及其优化算法 |
3.1.2 VLAC 基音估计及其优化算法 |
3.1.3 仿真实验 |
3.2 线谱频率的优化算法 |
3.2.1 线谱频率分析 |
3.2.2 求解线谱频率的常用算法 |
3.2.3 求解线谱频率的新算法 |
3.2.4 仿真实验 |
3.3 基于图形的端点检测优化 |
3.3.1 传统语音信号的端点检测方法 |
3.3.2 基于图形的端点检测方法的基本原理 |
3.3.3 语音信号转换为图形信号的方法 |
3.3.4 仿真实验 |
第四章 隐马尔可夫模型优化算法 |
4.1 禁止搜索算法的基本原理 |
4.2 TS 算法的一般步骤 |
4.3 隐马尔可夫模型 |
4.3.1 HMM 的估计问题 |
4.3.2 HMM 的解码问题 |
4.3.3 HMM 的自适应问题 |
4.3.4 HMM 的整体识别过程 |
4.4 利用禁止搜索优化隐马尔可夫模型 |
4.4.1 一个简单的 5 状态 2 转移实例的应用 |
4.4.2 TS-HMM 的详细步骤过程 |
4.5 仿真实验 |
第五章 总结与展望 |
致谢 |
参考文献 |
攻读学位期间取得的研究成果 |
(5)文本无关短语音说话人识别技术研究(论文提纲范文)
目录 |
表目录 |
图目录 |
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 说话人识别的基本概念 |
1.2 说话人识别的研究进展 |
1.3 短语音说话人识别的研究现状 |
1.4 论文的来源及主要研究内容 |
1.5 本文结构安排 |
第二章 主流的说话人识别方法概述及性能分析 |
2.1 说话人识别原理简介 |
2.2 美尔频率倒谱系数 |
2.3 基于GMM-UBM模型的说话人识别 |
2.3.1 GMM的简介 |
2.3.2 GMM-UBM的训练:EM算法 |
2.3.3 GMM-UBM的训练:MAP自适应 |
2.3.4 GMM-UBM的似然比得分 |
2.4 基于SVM模型的说话人识别 |
2.4.1 SVM的简介 |
2.4.2 基于SVM的说话人识别架构 |
2.4.3 SVM的输出判决策略 |
2.4.4 SVM在说话人识别中应用面临的问题 |
2.5 基于GSV-SVM模型的说话人识别 |
2.6 基于MFCC的说话人识别模型在短语音条件下应用的不足 |
2.7 GMM-UBM和GSV-SVM的识别性能与分析 |
2.7.1 实验数据库 |
2.7.2 性能评估指标 |
2.7.3 实验结果与分析 |
2.8 总结 |
第三章 基于语义信息抑制的短语音说话人辨认 |
3.1 已有的语义信息分离方法 |
3.1.1 已有的基于PCA的语义信息分离方法 |
3.1.2 已有的基于LDA的语义信息抑制方法 |
3.2 语音信号的内蕴非线性结构分析 |
3.3 拉普拉斯本征映射及其在语音信号处理中的应用 |
3.3.1 拉普拉斯本征映射 |
3.3.2 局部保距投影(LPP) |
3.3.3 区分性局部保距投影(DLPP) |
3.4 基于说话人属性约束的局部保距投影 |
3.4.1 SAC-LPP变换的基本原理 |
3.4.2 SAC-LPP变换的数学描述 |
3.4.3 SAC-LPP变换矩阵的推导 |
3.5 SAC-LPP在GMM-UBM模型中的应用 |
3.6 SAC-LPP中类间近邻以及目标函数的选择 |
3.7 实验结果与分析 |
3.7.1 测试结果与分析 |
3.7.2 SAC-LPP变换在说话人识别中的可行性分析 |
3.8 总结 |
第四章 基于UBM混元子空间的短语音说话人确认 |
4.1 已有的基于音素信息的文本无关说话人识别方法 |
4.1.1 基于广义音素分类的说话人识别 |
4.1.2 基于单音素的说话人识别 |
4.2 基于S-GSV-SVM的说话人确认原理 |
4.3 基于层级聚类的UBM混元子空间分类方法 |
4.3.1 常用的高斯混元间的测度 |
4.3.2 基于层级聚类的高斯混元分类方法 |
4.4 基于双重可信度的子空间融合方法研究 |
4.4.1 子空间融合方法研究 |
4.4.2 基于自适应匹配度的可信度度量方法 |
4.4.3 基于模型推广性的可信度度量方法 |
4.4.4 基于双重可信度线性子空间融合方法 |
4.5 实验与结果分析 |
4.5.1 子空间划分方法对识别性能影响的实验 |
4.5.2 多子空间融合方法的实验与分析 |
4.6 总结 |
第五章 基于仿生模式识别的说话人激励源特征建模方法 |
5.1 已有的基于原始语音的激励源特征提取方法 |
5.2 已有的基于LP残差的说话人识别方法 |
5.3 短语音条件下基于LP残差的说话人识别研究 |
5.4 基于LP残差向量和BNN的说话人识别 |
5.4.1 仿生模式识别的基本原理 |
5.4.2 基于仿生模式识别的神经网络构造方法 |
5.4.3 相关参数的设置及判决策略 |
5.5 两种特征融合方法研究 |
5.5.1 基于可靠性的动态融合方法 |
5.5.2 基于特征区分性的静态融合方法 |
5.6 实验与结果分析 |
5.6.1 基于LP残差向量和BNN的识别性能分析 |
5.6.2 激励源特征和MFCC融合后的识别性能 |
5.6.3 与其他短时倒谱特征融合的识别性能比较 |
5.7 总结 |
第六章 结束语 |
6.1 本文的创新性研究成果 |
6.2 本文的局限性及下一步工作 |
参考文献 |
作者简历 攻读博士学位期间完成的主要工作 |
致谢 |
(6)多重演化神经网络在语音识别中的应用(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 语音识别的研究与发展 |
1.1.1 语音识别的重要意义 |
1.1.2 语音识别的定义 |
1.1.3 语音识别技术的研究现状 |
1.2 语音识别系统概述 |
1.2.1 语音识别系统的模型框架 |
1.2.2 语音识别系统的分类 |
1.3 基于人工神经网络语音识别技术 |
1.4 论文结构 |
第2章 语音识别的基本原理与技术 |
2.1 语音识别的基本原理 |
2.2 语音信号预处理过程的原理及算法 |
2.2.1 反混叠滤波与预加重 |
2.2.2 语音信号的分帧 |
2.2.3 端点检测 |
2.3 语音特征参数的提取原理及算法 |
2.3.1 几种常用的语音特征参数介绍 |
2.3.2 线性预测系数(LPC) |
2.3.3 LPC倒谱系数(线性预测倒谱系数LPCC) |
2.3.4 Mel频率倒谱系数(MFCC系数) |
2.4 识别算法的实现技术 |
2.4.1 几种识别算法的相关介绍 |
2.4.2 动态时间规整(DTW)识别算法 |
2.4.3 隐马尔可夫模型(HMM)模型识别算法 |
2.5 本章小结 |
第3章 人工神经网络及多重演化神经网络 |
3.1 人工神经网络概述 |
3.1.1 人工神经网络(ANN)基本原理 |
3.1.2 人工神经网络的发展概况 |
3.1.3 人工神经网络在模式识别中的应用 |
3.2 BP网络的原理与算法 |
3.2.1 BP网络的基本原理 |
3.2.2 BP网络的学习算法 |
3.2.3 几种常见的BP网络学习算法的比较 |
3.3 BP网络学习算法存在的问题 |
3.4 遗传算法概述 |
3.4.1 遗传算法的概念引入 |
3.4.2 遗传算法的特点 |
3.5 遗传算法的基本原理 |
3.6 遗传算法与神经网络的结合—多重演化神经网络 |
3.6.1 多重演化神经网络产生的必要性和可行性 |
3.6.2 神经网络连接权的进化 |
3.6.3 神经网络结构的进化 |
3.6.4 神经网络学习规则的进化 |
3.7 多重演化神经网络的特点 |
3.8 本章小结 |
第4章 多重演化神经网络模型研究 |
4.1 多重模型的结构 |
4.2 竞争学习机制 |
4.2.1 竞争学习机制的原理 |
4.2.2 竞争学习机制的训练算法 |
4.3 自适应特征重组方法 |
4.3.1 自适应特征重组的原理 |
4.3.2 自适应特征重组的算法 |
4.4 实验分析 |
4.5 本章小结 |
第5章 混合模型状态数目自优化方法 |
5.1 模型的调整 |
5.2 自动增加状态的方法 |
5.2.1 原理 |
5.2.2 实例 |
5.3 自动删除状态的方法 |
5.3.1 原理 |
5.3.2 具体算法 |
5.4 模型的调整算法流程 |
5.5 固定状态数法与自动增减状态数法的实验分析 |
5.5.1 固定状态数模型的建模效果 |
5.5.2 自动增减状态数模型的建模效果 |
5.6 本章小结 |
第6章 基于多重演化神经网络模型的语音识别系统 |
6.1 引言 |
6.2 语音信号的预处理和特征参数的提取 |
6.2.1 语音信号的预处理 |
6.2.2 语音信号特征参数的提取 |
6.3 基于BP网络的语音识别的分析 |
6.3.1 系统中BP网络的构造 |
6.3.2 基于BP网络的语音识别算法 |
6.3.3 系统仿真实现及结果分析 |
6.4 基于多重演化神经网络的语音识别系统 |
6.4.1 基于多重演化神经网络的语音识别系统构建 |
6.4.2 网络连接权的进化参数设置 |
6.4.3 系统实现及结果分析 |
6.5 系统性能对比分析 |
6.6 本章小结 |
第7章 总结与展望 |
7.1 全文内容总结 |
7.2 将来研究工作展望 |
参考文献 |
攻读学位期间发表的论文目录 |
致谢 |
(7)语音变化分析及其在孤立词识别中的应用(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题背景与研究意义 |
1.2 孤立词识别介绍 |
1.3 语音变化 |
1.4 实用语音识别技术研究现状 |
1.4.1 特征域 |
1.4.2 模型域 |
1.4.3 得分域 |
1.4.4 其他方法 |
1.5 本文研究内容和组织结构 |
1.6 本章小结 |
第2章 实验语料库 |
2.1 汉语普通话情感语料库 MASC |
2.2 汉语孤立词库 MIWAC |
2.3 本章小结 |
第3章 语音变化分析 |
3.1 分析特征的选择 |
3.1.1 基音频率 |
3.1.2 能量 |
3.1.3 共振峰 |
3.1.4 梅尔倒谱系数 |
3.1.5 特征统计方法 |
3.2 特征层语音变化分析结果 |
3.2.1 基音频率分析结果 |
3.2.2 能量分析结果 |
3.2.3 共振峰分析结果 |
3.2.4 MFCC分析结果 |
3.3 模型层语音变化分析 |
3.3.1 Kullback-Leibler散度 |
3.3.2 Fisher F-ratio |
3.3.3 语音变化下模型差异 |
3.3.4 通道特性影响下模型分析结果 |
3.3.5 说话人情感影响下模型分析结果 |
3.4 得分层语音变化分析 |
3.4.1 通道特性影响下的得分分析结果 |
3.4.2 说话人情感影响下的得分分析结果 |
3.5 本章小结 |
第4章 鲁棒孤立词识别技术研究 |
4.1 基于 DTW的孤立词识别方法概述 |
4.2 基于 HMM的孤立词识别方法概述 |
4.3 基频包络在模板方法中的应用 |
4.3.1 算法基本思想 |
4.3.2 基频修正算法 |
4.3.3 实验及结果分析 |
4.4 基于聚类选择模板的孤立词识别方法 |
4.4.1 模板选择算法 |
4.4.2 特征统计量的选取 |
4.4.3 实验及结果分析 |
4.5 通用向量方法 |
4.5.1 算法基本思想及流程 |
4.5.2 实验及结果分析 |
4.6 对通道变化鲁棒的 HMM孤立词识别方法 |
4.6.1 倒谱均值减(CMS) |
4.6.2 得分规整 |
4.6.3 CMS相关实验及结果分析 |
4.6.4 得分规整的相关实验及结果分析 |
4.7 本章小结 |
第5章 系统应用 |
5.1 基于移动媒体的信息检索系统 |
5.1.1 韵河 |
5.1.2 基于移动媒体的信息检索系统的实现 |
5.2 在多模态通用遥控器GeeAir中的应用 |
5.3 本章小结 |
第6章 总结与展望 |
参考文献 |
攻读硕士学位期间主要的研究成果 |
致谢 |
(8)MGDM多模光纤通信系统的研究(论文提纲范文)
内容提要 |
第1章 绪论 |
1.1 多模光纤通信系统 |
1.2 多模光纤 |
1.3 基于多模光纤的MIMO 技术 |
1.3.1 模式复用 |
1.3.2 副载波复用/正交频分复用 |
1.3.3 波分复用 |
1.3.4 相干光MIMO |
1.3.5 非相干发射-直接探测的MIMO |
1.4 模式群分集复用技术 |
1.5 论文主要内容与结构 |
第2章 M×N的MGDM系统模型 |
2.1 简介 |
2.2 光波在多模光纤中的传输 |
2.3 光源模型 |
2.4 空间选择性探测模型 |
2.5 系统链路模型 |
2.6 系统中的噪声 |
2.6.1 接收机噪声 |
2.6.2 光源噪声 |
2.7 系统带宽 |
2.8 M 和N 的关系 |
2.9 本章小结 |
第3章 2×2的MGDM系统设计 |
3.1 选择模式激发 |
3.1.1 模式群的划分 |
3.1.2 NFP 的电磁理论分析 |
3.1.3 NFP 的光线理论分析 |
3.1.4 实现方式 |
3.2 复用与解复用的设计和优化 |
3.2.1 复用与解复用器的设计 |
3.2.2 激发及检测条件的优化 |
3.3 GI-MMF 熔接点处的模式转换现象 |
3.4 本章小结 |
第4章 信道解复用方法—ICA |
4.1 ICA 简介 |
4.2 ICA 的定义 |
4.2.1 ICA 作为生成模型的估计 |
4.2.2 ICA 的约束 |
4.2.3 ICA 中的含混因素 |
4.3 预处理技术 |
4.3.1 变量的中心化 |
4.3.2 白化 |
4.4 目标函数 |
4.4.1 极大化非高斯性 |
4.4.2 极大似然估计 |
4.4.3 极小化互信息 |
4.5 优化算法 |
4.6 ICA 在MGDM 中应用的可行性 |
4.7 改进的基于负熵的FASTICA 算法 |
4.8 本章小结 |
第5章 2×2的MGDM系统通信实验 |
5.1 实验系统 |
5.2 直接传输实验 |
5.2.1 两路数字信号 |
5.2.2 数字信号与数字视频 |
5.3 利用ICA 解复用 |
5.4 与迫零法解复用的对比 |
5.5 噪声存在下的ICA 解复用 |
5.6 本章小结 |
第6章 全文总结 |
6.1 总结 |
6.2 展望 |
参考文献 |
附录A |
附录B |
附录C |
致谢 |
攻读硕士期间已发表文章 |
导师及作者简介 |
摘要 |
ABSTRACT |
(9)基于HMM/ANN混合模型的语音识别系统研究(论文提纲范文)
摘要 |
ABSTRACT |
目录 |
第一章 绪论 |
1.1 语音识别研究的目的和意义 |
1.2 国内外语音识别技术的发展和现状 |
1.3 语音识别的难点分析 |
1.4 本文的主要工作 |
1.5 本章小结 |
第二章 语音识别的基本理论 |
2.1 语音识别系统组成和分类 |
2.2 语音信号的预处理 |
2.3 语音特征参数提取 |
2.4 语音识别的主要方法 |
2.5 本章小结 |
第三章 子带 HMM/ANN混合模型语音识别系统 |
3.1 HMM与神经网络结合的依据及方式 |
3.2 子带语音识别方法 |
3.3 改进的多特征子带 HMM/ANN神经网络混合模型识别系统 |
3.4 本章小结 |
第四章 HMM/ANN混合模型仿真实验与结果分析 |
4.1 语音信号的获取和数据库的建立 |
4.2 语音信号预处理 |
4.3 语音特征参数提取 |
4.4 系统性能分析 |
4.5 本章小结 |
第五章 基于 DSP的语音识别系统设计 |
5.1 系统总体硬件组成 |
5.2 DSP处理器模块 |
5.3 编辑码模块 |
5.4 存储器模块 |
5.5 CPLD模块 |
5.6 本章小结 |
第六章 论文总结与展望 |
6.1 论文工作总结 |
6.2 论文后续展望 |
致谢 |
参考文献 |
(10)多重ANN/HMM混合模型在语音识别中的应用(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 引言 |
1.2 课题来源及研究的目的和意义 |
1.3 国内外研究现状 |
1.4 本文的研究内容 |
第2章 ANN/HMM混合模型 |
2.1 ANN模型简介 |
2.1.1 人工神经网络的特点和基本原理 |
2.1.2 ANN的学习 |
2.2 HMM模型简介 |
2.2.1 基本概念 |
2.2.2 HMM的结构 |
2.2.3 HMM训练与识别算法 |
2.3 ANN/HMM 混合模型 |
2.3.1 模型结构 |
2.3.2 基本算法 |
2.3.3 混合模型的训练方法 |
2.4 本章小结 |
第3章 ANN/HMM混合模型状态数目自动优化方法 |
3.1 模型的调整 |
3.2 自动增加状态的方法 |
3.2.1 原理 |
3.2.2 实例 |
3.2.3 具体算法 |
3.3 自动删除状态的方法 |
3.3.1 原理 |
3.3.2 具体算法 |
3.3.3 ANN/HMM 混合模型的总体算法流程 |
3.4 固定状态数法与自动增减状态数法的实验分析 |
3.4.1 固定状态数ANN/HMM 的建模效果 |
3.4.2 自动增减状态数法的建模效果 |
3.5 本章小结 |
第4章 多重ANN/HMM模型研究 |
4.1 多重ANN/HMM的结构 |
4.2 竞争学习机制 |
4.2.1 原理 |
4.2.2 竞争学习算法 |
4.3 自适应特征重组方法 |
4.3.1 原理 |
4.3.2 自适应特征重组的算法 |
4.4 实验分析 |
4.4.1 语音信号的预处理与特征提取 |
4.4.2 多重ANN/HMM混合模型的建模效果 |
4.4.3 自适应特征重组方法的实验结果 |
4.5 本章小结 |
第5章 应用示例-语音控制车载导航系统 |
5.1 系统设计 |
5.1.1 系统结构 |
5.1.2 交互技术 |
5.2 系统界面 |
5.2.1 主界面 |
5.2.2 语音识别模块界面 |
5.2.3 语音训练模块界面 |
5.3 本章小结 |
结论 |
参考文献 |
致谢 |
四、基于多带HMM和神经网络融合的语音识别方法的信道鲁棒性(论文参考文献)
- [1]基于深度学习的声纹识别关键技术研究[D]. 汪伟. 电子科技大学, 2021(01)
- [2]越南语旅游领域问句语音识别方法的研究[D]. 李铚. 昆明理工大学, 2016(02)
- [3]集外词的语音检索方法研究[D]. 熊世富. 中国科学技术大学, 2014(12)
- [4]基于HMM连续语音识别中关键技术的改进算法研究[D]. 周俊. 上海师范大学, 2012(02)
- [5]文本无关短语音说话人识别技术研究[D]. 李邵梅. 解放军信息工程大学, 2011(08)
- [6]多重演化神经网络在语音识别中的应用[D]. 刘纪平. 武汉大学, 2011(04)
- [7]语音变化分析及其在孤立词识别中的应用[D]. 魏春明. 浙江大学, 2010(04)
- [8]MGDM多模光纤通信系统的研究[D]. 王晋飞. 吉林大学, 2009(09)
- [9]基于HMM/ANN混合模型的语音识别系统研究[D]. 付诗. 长春理工大学, 2009(02)
- [10]多重ANN/HMM混合模型在语音识别中的应用[D]. 刘明宇. 哈尔滨工业大学, 2008(07)