问题标签 [htk]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
194 浏览

mfcc - HTK 工具和采样率


大家好。(这句话开头可以吗?)

我试图用 HTK 工具模拟语音(单词)识别。
我有 *.wav 文件。
有些文件有 16KHz 的采样率,有些文件有 44.1KHz 的采样率。

我制作了关于每个采样率的 mfcc 文件。
但是,我使用所有(16KHz 和 44.1KHz)mfcc 文件制作 HMM 模型。

混合不同采样率的 HMM 模型可以吗?

我应该肯定知道信息,而不是建议。

谢谢阅读。

0 投票
1 回答
203 浏览

batch-file - 从批处理文件在 PuTTY 中自动执行的命令输出的布局被破坏

我已经按照这个问题构建了一个批处理文件来使用我的用户名和密码运行 PuTTY: How to run a command file in PuTTY using automatic login in a command prompt?


PuTTY 将尝试运行该code.txt文件,该文件具有以下代码:

它将显示一个矩阵。我尝试运行批处理文件,它能够打开 PuTTY,登录并在文本文件中运行命令。但是 PuTTY 终端的输出是一团糟。当我手动执行这些操作时,输出的布局很好。这是否意味着缺少某种设置?批处理文件会改变另一个应用程序的输出没有任何意义......谢谢

0 投票
1 回答
525 浏览

htk - 如何使用 HTK 进行语言建模

我对如何使用HTK 进行语言建模感到困惑。 我遵循了Voxforge网站上的教程示例

http://www.voxforge.org/home/dev/acousticmodels/linux/create/htkjulius/tutorial

经过训练和测试,我得到了大约 78% 的准确率。我这样做是为了我的母语。现在我必须使用 HTK 进行语言建模。

是否有任何教程可以做同样的事情?请帮我。

谢谢speech_tri

0 投票
1 回答
1213 浏览

linux - 无法在 Linux 上安装 HTK

我不想使用 ALIZE 进行说话人识别,安装后有以下步骤之一:使用 SPRO 或 HTK 进行特征提取所以我下载了 HTK 的 zip 文件并使用终端配置了所有内容,但是当我输入make all我得到这个错误:

这是什么意思以及如何解决这个问题?我正在寻找几个小时的答案,但找不到任何东西......

我正在使用 HTK 3.4.1 稳定版和 LInux ubuntu 16.10

0 投票
2 回答
1020 浏览

text-to-speech - 使用 HTS 为音乐节打造新的声音

我正在开发一个项目,使用基于 HMM 的方法为我的本地语言构建合成器。到目前为止,我已经能够生成一个强制对齐文件(aligned.mlf),如 HTK Book 中所述。但是,我找不到有关如何使用 HTS 构建合成器的分步说明。我所做的是在 HTS 网站上下载示例 Speaker Dependent Demo 并训练该数据。我在语音文件夹中拥有的是一个cmu_us_arctic_slt.htsvoice文件。所以我的两部分问题是:

1) 我如何将此文件用作音乐节中的声音?

2)如何从我拥有的强制对齐文件中生成训练我的声音所需的label和文件?utt

任何帮助将不胜感激。谢谢。

0 投票
1 回答
64 浏览

optimization - HTK:通过电话优化混合拆分电话

我使用 HTK 来训练声学模型。我的最后一步是拆分电话高斯的混合物。通常,我总是将所有电话(它们的内部状态)一步一步拆分,然后在性能下降时重新估算并停止。

现在我想尝试一一拆分手机,因为这应该会导致相同或更好的整体结果。我这样做的方式是,尝试拆分每部手机,选择导致最佳结果的手机,保持拆分状态,重置所有其他手机,然后重新开始。但这需要太长时间。我想把所有带来改进的东西分开,而不仅仅是最好的,然后进行下一次迭代。

我的问题是:如果拆分手机会降低性能,那么在以后尝试再次拆分它是否有任何意义?或者我可以把它列入黑名单,然后尝试那些在上一次迭代中带来改进的东西?

0 投票
1 回答
287 浏览

macos - HSLab:空音频设备

我是 HTK(隐马尔可夫模型工具包)的初学者。我刚刚在我的 Mac 机器(MacOS Sierra)上编译并安装了它。当我运行 HSLab 命令时: HSLab no_name 它会正确打开一个 GUI 窗口。但是当我单击“rec”时,它会崩溃: ERROR [+6015] StartAudioInput: null audio device FATAL ERROR - Terminating program HSLab HTK 版本是 3.4.1(当前稳定)。

有任何想法吗?

0 投票
1 回答
59 浏览

speech-recognition - 使用没有词汇的 HVite

是否可以在不指定词汇文件的情况下使用来自 HTK 的 HVite?我正在做纯电话识别,并且只有与语音 wav 相对应的电话级实验室文件。我还没有定义任何词汇文件...

0 投票
1 回答
641 浏览

speech-recognition - HTK - HMM 模型的 MFCC 和输入 WAV 文件代表什么?

在按照Voxforge 的使用 HTK(隐藏马尔可夫模型工具包)的语音转文本系统教程创建 MFCC 时,我们需要为我们的手机定义一个原型模型。我正试图围绕这个文件。

在这种情况下,我们使用长度为 25 的特征向量来表示 HMM 的每个状态。但是,我不太明白为什么每个州都有 25 个“均值”和“方差”。它们代表每个特征向量的均值和方差吗?

此外,为什么我们在 5 时有 3 个状态?是<State>1<State>5只是进入和退出点,所以它们不需要 aMeanVariance?

此外,在获取样本 wav 文件时,我打印了 MFCC,显示如下:

对于每个“窗口”,为什么我们有 26 个系数而不是 25 个?它们都代表什么?我相信:

  • 1-12是倒谱系数
  • 14-25是 Delta 系数
  • 26也是第 13 个数字的 Delta 系数

但我不知道每个样本中的第 13 个数字代表什么。它们应该是<MFCC_0_D_N_Z>开头显示的原型文件中定义的格式,这在HTK 手册中没有很好地解释。但我可以从手册的第 80 页获得:

  • MFCC_0: MFCC 系数
  • _D: 增量系数
  • _N:绝对能量抑制
  • _Z:具有零平均静态系数。

任何解释将不胜感激。

0 投票
2 回答
845 浏览

ubuntu - 在 ubuntu 中使用 hts 编译节日时出现 SIOD 错误

我尝试在 Ubuntu16.10 上编译 HTS-demo_CMU-ARCTIC-SLT。

但是发生了以下错误。

我认为 Festival 导致了这些问题。这是我安装音乐节的过程。

你能帮我解决这个问题吗?

[添加]

我从(http://www.cstr.ed.ac.uk/downloads/festival/2.4/)获得节日版本 2.4