vector - 语音处理中的向量量化解释

Question

我无法从这篇研究论文中确切地确定如何根据训练数据集重现标准矢量量化算法来确定身份不明的语音输入的语言。以下是一些基本信息：

摘要信息 使用声学特征的语言识别（如日语、英语、德语等）是当前语音技术的一个重要而困难的问题。... 本文使用的语音数据库包含 20 种语言：16 个句子，由 4 名男性和 4 名女性说出两次。每个句子的持续时间约为 8 秒。第一种算法基于标准矢量量化 (VQ) 技术。每种语言都有自己的 VQ 码本， $替代文字$ .

识别算法 第一个算法基于标准矢量量化（VQ）技术。每种语言 ,k都有其自己的 VQ 码本 , $替代文字$ 。在识别阶段，输入语音被量化 $替代文字$ 并计算累积量化失真 d_k。作为最小失真的语言被识别。计算 VQ 失真，应用了几个 LPC 频谱失真测量......在这种情况下，WLR - 加权最小比率 - 距离：

.

标准 VQ 算法： 码本，

，对于每种语言都是使用训练句子生成的。句子中输入向量的累积距离![alt text][4] 定义为：[![alt text][5]][5]

该距离d可以是与声学特征相对应的任何距离，并且必须与用于码本生成的距离相同。每种语言都以其 VQ 码本为特征， $替代文字$ .

我的问题是，我到底该怎么做？我有一组50个英语句子。在 MATLAB 中，我可以轻松计算任何给定信号的 WLR。但是，我该如何制定码本，因为我必须使用 WLR 来生成英语的“码本”。我也很好奇如何将大小为 16 的 VQ 码本（被发现是最佳大小）与给定的输入信号进行比较。如果有人可以帮我提炼这篇论文，我将不胜感激。

谢谢！

score 1 · Accepted Answer

第二个问题（将码本与给定信号进行比较）更简单：对于每个码本条目 V_k_j，您必须计算输入信号的距离 d。距离“d”最小的“j”将对应于最佳拟合码本条目。作为距离函数，您可以使用 WLR

构建密码本（trainig）有点复杂。您必须将句子分成长度为 N (16) 的向量，然后使用一些聚类算法（如 k-means）对这些向量进行聚类。然后在每个集群中找到均值。这意味着并将成为密码本条目。这是首先想到的事情。

另一种算法（我相信它会更好）可以在这里找到。此外，维基百科中描述了两种简单的训练算法

vector - 语音处理中的向量量化解释

1 回答 1

Related

Reference