我无法从这篇研究论文中确切地确定如何根据训练数据集重现标准矢量量化算法来确定身份不明的语音输入的语言。以下是一些基本信息:
摘要信息 使用声学特征的语言识别(如日语、英语、德语等)是当前语音技术的一个重要而困难的问题。... 本文使用的语音数据库包含 20 种语言:16 个句子,由 4 名男性和 4 名女性说出两次。每个句子的持续时间约为 8 秒。第一种算法基于标准矢量量化 (VQ) 技术。每种语言都有自己的 VQ 码本,.
识别算法
第一个算法基于标准矢量量化(VQ)技术。每种语言 ,k
都有其自己的 VQ 码本 , 。在识别阶段,输入语音被量化并计算累积量化失真 d_k。作为最小失真的语言被识别。计算 VQ 失真,应用了几个 LPC 频谱失真测量......在这种情况下,WLR - 加权最小比率 - 距离:
该距离d
可以是与声学特征相对应的任何距离,并且必须与用于码本生成的距离相同。每种语言都以其 VQ 码本为特征,.
我的问题是,我到底该怎么做?我有一组50个英语句子。在 MATLAB 中,我可以轻松计算任何给定信号的 WLR。但是,我该如何制定码本,因为我必须使用 WLR 来生成英语的“码本”。我也很好奇如何将大小为 16 的 VQ 码本(被发现是最佳大小)与给定的输入信号进行比较。如果有人可以帮我提炼这篇论文,我将不胜感激。
谢谢!