问题标签 [htk]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
901 浏览

android - 如何在 Android 上安装 HTK?

类似于这个问题。由于我不想将语音数据传递到服务器,这样做可能会花费我更多时间。我想知道我是否可以使用HTK通过 Android 应用程序在本地识别语音数据,这样我就不需要将该音频传递给服务器。 可能是解决方案,但任何人都可以给我一个更详细的关于如何使用 android ndk 构建 HTK 的教程吗?谢谢!

0 投票
0 回答
746 浏览

mfcc - 使用 htk 测试系统时出错

我已经对系统进行了培训,但在测试系统时出现以下错误:-

**错误 [+6310] OpenParmChannel:无法打开 Parm 文件路径/T_TUPT_M0002_PN_10012_1.mfc

错误 [+6313] OpenAsChannel:OpenParmChannel 失败

错误 [+6316] OpenBuffer:OpenAsChannel 失败

错误 [+3250] ProcessFile:配置参数无效

如何消除此错误?

0 投票
1 回答
194 浏览

c++ - 隐藏马尔可夫模型 - 在 C++ 中实现参数绑定

隐马尔可夫模型中的参数绑定本质上是将 HMM 的多个逻辑参数映射到几个物理参数,以减少计算并强制约束。

因此,如果参数(状态、GMM、均值向量、协方差矩阵、转移矩阵、流权重向量、持续时间参数向量……)是表示 HMM 的对象的字段,则这些将被映射到几个物理副本。例如,HMM 集合中的任何两个状态都可以具有相同的输出概率分布。

我需要 HMM 的语法表示和它们之间的参数绑定,并解析它们并从中构造 HMM 对象。

使用 C++ 语言(如果可能的话)的特性来绑定这些参数的一种很好、优雅的方式是 什么?

编辑

原始指针绝对不是一种选择。我正在研究像 C++ 指针类型shared_ptr,但如果可能的话,我也想避免使用它们。此外,似乎 C++ 引用可能会限制功能。

0 投票
2 回答
2887 浏览

nlp - 为自定义语言设计 TTS(文本到语音)系统的工具包?

我想为美国本土语言 (wayuunaiki) 创建一个 TTS 系统。该语言是用拉丁(西方)字母书写的。我也有关于语音的信息(将每个单词转换为 IPA 符号的规则)。

我打算创建一个本地人录音的数据库。然后我想以某种方式训练该数据,使用 IPA 等效信息生成更准确的语音模型。

我对自然语言处理完全陌生,所以我的问题是……我可以使用哪些工具来执行我的计划?

我听说 HTK 和 CMU Sphinx 在语音识别方面相当出色。不知道语音生成。也听说过 Festival,但我读到它只使用预定义的最知名的语言:英语、西班牙语等。

请原谅我的打字错误。我还在学习英语。提前致谢!

0 投票
1 回答
1857 浏览

python - 正在初始化...命令“sox”返回非零退出状态 2

我检查了类似的错误消息问题,但没有发现任何非常适合我的情况。我正在尝试使用 HTK、Prosodylab-aligner 和 SoX 将 .wav 文件与 .lab 文件进行时间对齐。

这是我的输入(使用 Prosodylab-aligner):

出现的只是这行代码:

我查看了这段代码的含义,显然这意味着缺少命令或关键字

我相信问题出在align.py文件中,但我不确定到底在哪里。这是引用 SoX 的文件区域。

0 投票
0 回答
1549 浏览

python - Python 音频对齐器

我需要一些关于 python 脚本的帮助。它是 Penn 语音音频校准器。我安装了它,一切正常,只是有点太好了 :) 我正在尝试将成绩单与语音中的时间相匹配,这确实如此,但它也走得太远了,这也是提供每个“电话”的所有时间(如音节)。为了说明这里是一个小部分:

你可以在发音指南中看到你,它使用 AY1 来表示I,然后将 TALKING 分解成一堆音节。一方面,我“可以”按原样使用数据,但是处理一个 20 分钟的文件需要 15 分钟,我认为如果它限制自己只查找单词,它可以做得更快,这将是很好,因为我有数百小时的时间来处理。有一种昂贵(11,000 美元)的商业产品可以在大约 30 秒内完成相同的工作,所以我认为如果我们能加快一点速度,那就太棒了。

我尝试注释掉它写出“电话”的部分,然后更改 HVite 中的选项以进行单词匹配 -o SWT(来自此页面:http ://www.ee.columbia.edu/ln/LabROSA/ doc/HTKBook21/node143.html),但我得到了这个错误:

使用修改后的 HVite 命令,该脚本的运行速度明显更快,但当然以错误结束。这是python脚本:

0 投票
1 回答
619 浏览

speech-recognition - 使用 HTK 的孤立数字识别

我正在尝试使用 HTK 进行孤立词识别。到目前为止,我已经构建了这些文件:

dict文件:

source.mlf文件:

我将0*F1SET0.wav文件保存wav在项目目录的目录中。

mhphones0.led使用以下命令:

然后我试图执行这个命令:

但它显示了这个错误:

我不明白mkphones0.mlf文件命令中有什么问题。请提前帮助和感谢!

0 投票
1 回答
343 浏览

hidden-markov-models - 用于非语音数据的 HTK HMM

我是使用 HTK 的新手。我想将 HMM 用于非语音数据,但我没有找到任何好的示例,大多数示例都是针对语音的。

我知道我必须将我的数据特征转换为 HTK 格式。

我不知道如何配置 HTK,因为它使用字典和语法,而且我的数据不需要这些东西,因为它不是语音。

有人对此有很好的例子或任何建议吗?

0 投票
2 回答
536 浏览

nlp - 构建 Jarvis 之类的本地语言应用程序

目前正在开发的 jarvis 应用程序是英文的。我想自定义它以使用本地语言。如何为当地语言开发这种应用程序?我必须知道什么样的编程语言才能进行开发?我已经测试了 jarvis 的英文版,它对我来说效果很好。为了开发的目的,如何将 c# 与 HTK 连接起来?

0 投票
1 回答
235 浏览

speech-recognition - 无需字典即可识别未转录语音的开源工具

只是做一些一般性的研究。是否有任何开源(甚至付费?)工具/程序可以执行以下操作:

输入:一些未标记语音的音频文件,可能有几句话长,(没有说明音频中的音标是什么)

输出:带有音标的音频文件(在 IPA 字母表中)对齐并标记在音频上

是否可以仅使用语音词典而不使用单词词典来完成?