问题标签 [htk]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
text-to-speech - 说话人自适应训练和说话人依赖训练的目的是什么?
我正在尝试为印度口音英语(不是任何印度语言)创建一个 TTS 引擎。
我已经有一个印度口音英语的录音数据库。那么接下来的步骤是什么?
我认为我们需要用“.lab”扩展文件标记它们(好吧,我真的不知道!)。带有“.utts”扩展名的文件是什么?
在使用 HMM 实现 TTS 引擎时,说话人自适应训练和说话人依赖训练的目的是什么?
我用谷歌搜索了很多,但找不到详细的解释。(我只能找到一些与之相关的论文和期刊)
如果您可以向我们提供资源链接,指导我使用 Hidden Marvkov 模型创建自定义 TTS,那将非常有帮助。
谢谢你。
python - scikit-learn HMM的速度与HTK相比如何?
我正在使用 HMM 进行场景文本识别。与 HTK 相比,我怀疑 scikit-learn HMM 代码用于训练和预测的速度,因为 sklearn HMM 是用 Python 编写的。
我的数据非常庞大(数十 GB),因此速度是一个关键问题。
希望有人可以分享一些经验。
cmusphinx - 将 HTK 模型转换为 Pocketsphinx
我有一个使用 HTK 构建的用于在线手写识别的工作模型。现在我想为Android构建另一个识别系统。经过一番研究,我发现 PocketSphinx 有一个在 Android 操作系统上运行的版本。现在,我想到的是将我的 HTK 模型转换为 Sphinx(或在 Sphinx 中重建它),然后将其与 PocketSphinx-on-Android 一起使用。
首先,我的计划中有没有遗漏的地方?
其次,转换后的系统(或使用 Sphinx 重建)是否可以直接在 PocketSphinx 中使用?换句话说,Sphinx 模型是否会进一步转换/适应 PocketSphinx?
提前致谢
matlab - 在matlab中读取HTK二进制文件
我运行 HTK 包从我的数据中提取 MFCC 特征。但是现在这个特性被存储在 .mfc 文件格式,这是根据 htk 书,大端二进制文件。当我在 matlab 中打开这些文件时,有些值似乎是标题值或其他东西,任何人都知道如何将标题值与主数据分开?
sphinx4 - 具有 HTK 模型识别性能的 Sphinx-4
我已经使用 Sphinx-4 和 HTK 模型一起构建了一个在线手写识别系统。当我使用HTK自己的解码系统识别率是89%。然而,具有相同 HTK 模型的 Sphinx-4 系统实现了略高于 50%。
这是正常的吗?HTK 模型在 Sphinx-4 精度上是否有提升空间?
谢谢
附加信息:
我使用 LatticeDemo 示例构建了 Sphinx-4 系统,并按照 [ http://nshmyrev.blogspot.com.tr/2009/09/using-htk-models-in-sphinx4.html]中的步骤操作。HTK系统的配置文件如下:
Sphinx-4 的 config.xml 如下:
htk - 使用 HResults HTK 工具生成混淆矩阵以进行手写识别 ICFHR 的示例
我正在研究 HTK Tools 如何与手写识别一起工作。在ICFHR–2010 教程之后,我运行了“西班牙数字”语料库的示例,并收到了生成的 HMM(存储在文件夹 hmm 中并列在 中的文件HMMsList
),并res32.mlf
收到了识别结果HVite
。我也有主标签文件 SamplesRef.mlf。现在我想看识别结果统计,即学习HResults
工具。
当我运行HResults
时
我懂了
但是,如果我添加选项-p
以获得混淆矩阵,我会看到以下错误消息:
我了解该消息意味着没有名为“millones”的 HMM,我发现在我的res32.mlf
示例中看起来像:
如果我res32.mlf
使用文本编辑器更改为res33.mlf
内容如下:
... 等等。
并使用samples.mlf
(而不是SamplesRef.mlf
)内部看起来像:
... 等等。
我有想要的结果:
所以,主要问题是:
制作适合制作混淆矩阵的 mlf 文件的最简单方法是什么(没有文本编辑器)?
(我想我错过了一些 HTK 工具的选项……但是哪个工具和哪个选项?)
任何有用的想法将不胜感激。
matlab - HTK - mismatch of time stamp in MLF file
I am recently writing a sound detection project using HTK (a HMM tool kit). After testing I get the following result file:
In the official doc, it says the time stamp has a unit of 100ns, so by this result, it says from 0s-4.7s, there is a sound of "keyboard". But the weird thing is that the testing sound file only has 1.9s, here is the detailed information:
Moreover, when I am running HVite, there is a warning:
Maybe this relates to my problem?
Does anybody know why the time stamp is so large? Thanks anyway!
binary - HTK | 将 HMM 定义从二进制转换为文本
我有一个训练模型的 HMM 定义文件,但它是二进制的。如何将其转换为文本/ASCII 以便于使用?我从http://www.keithv.com/software/htk/us/获得了这个训练有素的模型
htk - 运行 HTKDemo 时导致 HMError
我刚刚使用 gcc 3.4 编译器在我的 64 位 Ubuntu 中安装了 HTS-2.2 和 HTK-3.4.1。在那之后,输入 HInit 和 HCopy 等似乎工作。所以我想知道 HTKDemo 是如何工作的。
当我运行演示时,HTK 导致了一个问题:
原型 S、V、N、C 也是如此。
我真的很想知道原因以及如何解决它?谢谢!
htk - HTK 错误 [+5010] InitSource: 无法打开源文件 f-ihm+k
我相信这个错误与我的tielist 和 hmmdefs 之间的不匹配有关(如此处指出:http ://www.ling.ohio-state.edu/~bromberg/htk_problems.html ),但我不能似乎解决它。我的语料库中的所有三音素都存在于我的 triphones1 列表中,而 triphones1 仅包含我的语料库中的单音素、双音素和三音素。
如果我从 triphones1 列表中取出所说的 triphone 并重新创建它通过但抱怨另一个 triphone 在路上。显然,手动取出所有这些三音素将花费我数年时间,而且它似乎效率不高,这让我相信我错过了更早的东西。
同样重要的是要注意,所有这些产生错误的三音素也在我的语料库中。对我来说,这个错误只有在我在某个地方有看不见的三音素时才有意义,但在哪里呢?我觉得我已经不遗余力了,但肯定有人可以让我对去哪里有一个全新的想法。