问题标签 [htk]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mfcc - 使用 htk 测试系统时出错
我已经对系统进行了培训,但在测试系统时出现以下错误:-
**错误 [+6310] OpenParmChannel:无法打开 Parm 文件路径/T_TUPT_M0002_PN_10012_1.mfc
错误 [+6313] OpenAsChannel:OpenParmChannel 失败
错误 [+6316] OpenBuffer:OpenAsChannel 失败
错误 [+3250] ProcessFile:配置参数无效
如何消除此错误?
c++ - 隐藏马尔可夫模型 - 在 C++ 中实现参数绑定
隐马尔可夫模型中的参数绑定本质上是将 HMM 的多个逻辑参数映射到几个物理参数,以减少计算并强制约束。
因此,如果参数(状态、GMM、均值向量、协方差矩阵、转移矩阵、流权重向量、持续时间参数向量……)是表示 HMM 的对象的字段,则这些将被映射到几个物理副本。例如,HMM 集合中的任何两个状态都可以具有相同的输出概率分布。
我需要 HMM 的语法表示和它们之间的参数绑定,并解析它们并从中构造 HMM 对象。
使用 C++ 语言(如果可能的话)的特性来绑定这些参数的一种很好、优雅的方式是 什么?
编辑
原始指针绝对不是一种选择。我正在研究像 C++ 指针类型shared_ptr
,但如果可能的话,我也想避免使用它们。此外,似乎 C++ 引用可能会限制功能。
nlp - 为自定义语言设计 TTS(文本到语音)系统的工具包?
我想为美国本土语言 (wayuunaiki) 创建一个 TTS 系统。该语言是用拉丁(西方)字母书写的。我也有关于语音的信息(将每个单词转换为 IPA 符号的规则)。
我打算创建一个本地人录音的数据库。然后我想以某种方式训练该数据,使用 IPA 等效信息生成更准确的语音模型。
我对自然语言处理完全陌生,所以我的问题是……我可以使用哪些工具来执行我的计划?
我听说 HTK 和 CMU Sphinx 在语音识别方面相当出色。不知道语音生成。也听说过 Festival,但我读到它只使用预定义的最知名的语言:英语、西班牙语等。
请原谅我的打字错误。我还在学习英语。提前致谢!
python - 正在初始化...命令“sox”返回非零退出状态 2
我检查了类似的错误消息问题,但没有发现任何非常适合我的情况。我正在尝试使用 HTK、Prosodylab-aligner 和 SoX 将 .wav 文件与 .lab 文件进行时间对齐。
这是我的输入(使用 Prosodylab-aligner):
出现的只是这行代码:
我查看了这段代码的含义,显然这意味着缺少命令或关键字
我相信问题出在align.py
文件中,但我不确定到底在哪里。这是引用 SoX 的文件区域。
python - Python 音频对齐器
我需要一些关于 python 脚本的帮助。它是 Penn 语音音频校准器。我安装了它,一切正常,只是有点太好了 :) 我正在尝试将成绩单与语音中的时间相匹配,这确实如此,但它也走得太远了,这也是提供每个“电话”的所有时间(如音节)。为了说明这里是一个小部分:
你可以在发音指南中看到你,它使用 AY1 来表示I
,然后将 TALKING 分解成一堆音节。一方面,我“可以”按原样使用数据,但是处理一个 20 分钟的文件需要 15 分钟,我认为如果它限制自己只查找单词,它可以做得更快,这将是很好,因为我有数百小时的时间来处理。有一种昂贵(11,000 美元)的商业产品可以在大约 30 秒内完成相同的工作,所以我认为如果我们能加快一点速度,那就太棒了。
我尝试注释掉它写出“电话”的部分,然后更改 HVite 中的选项以进行单词匹配 -o SWT(来自此页面:http ://www.ee.columbia.edu/ln/LabROSA/ doc/HTKBook21/node143.html),但我得到了这个错误:
使用修改后的 HVite 命令,该脚本的运行速度明显更快,但当然以错误结束。这是python脚本:
speech-recognition - 使用 HTK 的孤立数字识别
我正在尝试使用 HTK 进行孤立词识别。到目前为止,我已经构建了这些文件:
dict
文件:
source.mlf
文件:
我将0*F1SET0.wav
文件保存wav
在项目目录的目录中。
并mhphones0.led
使用以下命令:
然后我试图执行这个命令:
但它显示了这个错误:
我不明白mkphones0.mlf
文件命令中有什么问题。请提前帮助和感谢!
hidden-markov-models - 用于非语音数据的 HTK HMM
我是使用 HTK 的新手。我想将 HMM 用于非语音数据,但我没有找到任何好的示例,大多数示例都是针对语音的。
我知道我必须将我的数据特征转换为 HTK 格式。
我不知道如何配置 HTK,因为它使用字典和语法,而且我的数据不需要这些东西,因为它不是语音。
有人对此有很好的例子或任何建议吗?
nlp - 构建 Jarvis 之类的本地语言应用程序
目前正在开发的 jarvis 应用程序是英文的。我想自定义它以使用本地语言。如何为当地语言开发这种应用程序?我必须知道什么样的编程语言才能进行开发?我已经测试了 jarvis 的英文版,它对我来说效果很好。为了开发的目的,如何将 c# 与 HTK 连接起来?
speech-recognition - 无需字典即可识别未转录语音的开源工具
只是做一些一般性的研究。是否有任何开源(甚至付费?)工具/程序可以执行以下操作:
输入:一些未标记语音的音频文件,可能有几句话长,(没有说明音频中的音标是什么)
输出:带有音标的音频文件(在 IPA 字母表中)对齐并标记在音频上
是否可以仅使用语音词典而不使用单词词典来完成?