问题标签 [kaldi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
291 浏览

python - Kaldi_io 使用 python 读取 .scp/.ark 文件时出错

我需要使用以下代码读取一些 scp 文件:

这是 scp 文件中的一行:1272-128104-0000 raw_mfcc_dev_clean.1.ark:17

这是我得到的错误:

PS这个目录raw_mfcc_dev_clean.1.ark存在

0 投票
0 回答
31 浏览

bash - sed -e 和 awk 用于处理文本文件

此代码从目录中获取所有 .stm 文件,并在执行此代码后保存在文件中。

样本输出

我不明白使用 sed -e 如何格式化它。

我对 awk '{ $2 = "A"; print $0; }'每一行的这一行含义的理解取第二个单词并检查它是否等于 A 然后打印第一个单词,但是这些-e 's:<sil>::g'含义是什么?

0 投票
0 回答
762 浏览

speech-recognition - Kaldi:迁移学习

我正在尝试使用已在 Common Voice 上预训练的模型以及自定义的有限词汇数据集在 Kaldi-ASR 上进行迁移学习。但是,我发现要提供给egs/commonvoice/s5/steps/online/nnet2/prepare_online_decoding_retrain.sh.

作为参考,这些是我提供的参数类型

我目前得到的错误是

显然我需要创建这个文件,但我不知道如何。如果我能提供一些关于如何创建它以及提供哪些配置参数的指示,那就太好了。如果需要任何其他信息,请在评论中告诉我。

TIA。

0 投票
2 回答
646 浏览

python-2.7 - kaldi python2二进制问题

我在 ubuntu 18.04 中安装 kaldi。python2.7 是安装 kaldi 的依赖项之一。我已经通过 sudo apt-get install pytho2.7 安装了 python2.7。然后检查先决条件运行 extras/check_dependencies.sh。结果显示 - “python2.7 已安装,但 python2 二进制文件未退出。创建符号链接并将其添加到 tools/env.sh” 下一步要做什么?

0 投票
1 回答
345 浏览

linux - 扩展 Kaldi Aspire:使用新词典和语法文件重新编译 HCLG.fst 时出现变量错误

我已在我的WSL上成功设置并运行 Kaldi Aspire 配方。现在我正在研究一个 POC,我想通过制作一个新的语料库、字典、语言模型并将其与原始 HCLG.fst 合并来扩展 ASPIRE 配方。我关注了这篇博文。我已经能够成功创建新字典、语言模型并合并输入文件。但是,当我尝试使用新的词典和语法重新编译 HCLG.fst 时出现以下错误。

我也在Kaldi 帮助小组上问过这个问题。Dan Povey 建议这可能是一个本地问题,其中可能会产生一个引发此错误的子外壳。

我的密码输出如下:-

我的path.sh如下:

在运行后续命令之前,需要获取链接博客文章中提到的我的cmd.sh是:

这里有任何 Linux 队长可以帮助我吗?

0 投票
0 回答
49 浏览

python - 以 .ark 格式保存经过训练的 pytorch 神经网络的输出

我正在训练我的声学模型,它是用 PyTorch 编写的多层 DNN。我想将网络的输出保存为 (.ark) 文件,以便在解码阶段使用它进行自动语音识别。我搜索了很多,但找不到执行此操作的功能。任何帮助!

0 投票
0 回答
24 浏览

speech-recognition - Kaldi解码中需要语音

我在 KALDI 中使用了 aspire 示例。它工作正常。我需要一个帮助,那就是我在解码时需要音频文件的语音。所以基本上当我解码一个 .wav 文件时,我需要音频的语音而不是单词(句子)。例如:单词:ago 拼音:ago ah_B g_I ow_E

可能吗?如果是,请提供帮助。

0 投票
2 回答
503 浏览

python - 运行 kaldi gst 现场演示时出现 intel mkl 致命错误

我尝试运行GST_PLUGIN_PATH=../../src/gst-plugin ./run-live.py并获取的输出错误intel mkl fatal error Intel MKL FATAL ERROR: cannot load libmkl_vml_avx2.so or libmkl_vml_def.so.

我试过export LD_PRELOAD=/opt/intel/mkl/lib/intel64/libmkl_core.so:/opt/intel/mkl/lib/intel64/libmkl_sequential.so 了,但没有解决

然后我尝试sudo pip3 install mkl 了之后我安装了一些其他的东西sudo pip3 install numpy scipy scikit-learn numexpr

并且错误仍然存​​在

0 投票
0 回答
211 浏览

python - Python - 如何检查 TCP 服务器是否已经在为客户端提供服务

我正在使用 Kaldi 语音识别工具包的“在线 2-tcp-nnet3-decode-faster”。服务器接收原始音频并实时发送与该音频对应的文本。换句话说,当使用这样的服务器时,想法是在发送音频后立即开始转录。

如果服务器正忙于处理一个客户端请求,它就无法处理第二个请求。第二个请求将保持空闲,直到第一个转录完成并且第一个客户端关闭连接。

我想构建一个 python 客户端通过 websockets 与 TCP 服务器通信。我能够创建一个套接字连接,但是,我仍然无法确定服务器是否已经在为另一个客户端提供服务,以便我可以在其他端口上尝试其他服务器,或者即时创建一个新的服务器实例。

我正在使用类似下面的代码片段。即使服务器正在为另一个客户端提供服务,连接调用也会成功。

0 投票
0 回答
114 浏览

python - 如何根据扬声器从一个音频文件中保存多个音频文件?

我有一个音频文件,其中有 2 个扬声器,第一个朗读一个句子,然后另一个翻译它。

我想为演讲者 A 和 B 朗诵的每个句子保存一个音频文件。

示例:文件 -> book_translation.mp3(1 分钟音频)

演讲者A:“你好吗”

演讲者 B:“wie gehts”

演讲者A:“我很好”

演讲者 B:“Mir geht 的肠子”

预期输出:4 个 mp3 文件 ->
A_01.mp3 B_01.mp3 A_02.mp3 B_02.mp3