问题标签 [kaldi]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

111 问题

0 投票

0 回答

291 浏览

python - Kaldi_io 使用 python 读取 .scp/.ark 文件时出错

我需要使用以下代码读取一些 scp 文件：

这是 scp 文件中的一行：1272-128104-0000 raw_mfcc_dev_clean.1.ark:17

这是我得到的错误：

PS这个目录raw_mfcc_dev_clean.1.ark存在

user12830038

2020-02-23T20:06:58.400

0 投票

0 回答

31 浏览

bash - sed -e 和 awk 用于处理文本文件

此代码从目录中获取所有 .stm 文件，并在执行此代码后保存在文件中。

样本输出

我不明白使用 sed -e 如何格式化它。

我对 awk '{ $2 = "A"; print $0; }'每一行的这一行含义的理解取第二个单词并检查它是否等于 A 然后打印第一个单词，但是这些-e 's:<sil>::g'含义是什么？

bash shell kaldi

2020-02-25T05:42:17.823

0 投票

0 回答

762 浏览

speech-recognition - Kaldi：迁移学习

我正在尝试使用已在 Common Voice 上预训练的模型以及自定义的有限词汇数据集在 Kaldi-ASR 上进行迁移学习。但是，我发现要提供给egs/commonvoice/s5/steps/online/nnet2/prepare_online_decoding_retrain.sh.

作为参考，这些是我提供的参数类型

我目前得到的错误是

显然我需要创建这个文件，但我不知道如何。如果我能提供一些关于如何创建它以及提供哪些配置参数的指示，那就太好了。如果需要任何其他信息，请在评论中告诉我。

TIA。

speech-recognition kaldi

2020-03-05T06:08:03.090

0 投票

2 回答

646 浏览

python-2.7 - kaldi python2二进制问题

我在 ubuntu 18.04 中安装 kaldi。python2.7 是安装 kaldi 的依赖项之一。我已经通过 sudo apt-get install pytho2.7 安装了 python2.7。然后检查先决条件运行 extras/check_dependencies.sh。结果显示 - “python2.7 已安装，但 python2 二进制文件未退出。创建符号链接并将其添加到 tools/env.sh” 下一步要做什么？

python-2.7 binary symlink kaldi

2020-03-20T06:52:04.670

0 投票

1 回答

345 浏览

linux - 扩展 Kaldi Aspire：使用新词典和语法文件重新编译 HCLG.fst 时出现变量错误

我已在我的WSL上成功设置并运行 Kaldi Aspire 配方。现在我正在研究一个 POC，我想通过制作一个新的语料库、字典、语言模型并将其与原始 HCLG.fst 合并来扩展 ASPIRE 配方。我关注了这篇博文。我已经能够成功创建新字典、语言模型并合并输入文件。但是，当我尝试使用新的词典和语法重新编译 HCLG.fst 时出现以下错误。

我也在Kaldi 帮助小组上问过这个问题。Dan Povey 建议这可能是一个本地问题，其中可能会产生一个引发此错误的子外壳。

我的密码输出如下：-

我的path.sh如下：

在运行后续命令之前，需要获取链接博客文章中提到的我的cmd.sh是：

这里有任何 Linux 队长可以帮助我吗？

linux bash shell linux-kernel kaldi

2020-03-26T16:01:48.177

0 投票

0 回答

49 浏览

python - 以 .ark 格式保存经过训练的 pytorch 神经网络的输出

我正在训练我的声学模型，它是用 PyTorch 编写的多层 DNN。我想将网络的输出保存为 (.ark) 文件，以便在解码阶段使用它进行自动语音识别。我搜索了很多，但找不到执行此操作的功能。任何帮助！

python pytorch kaldi

2020-04-18T20:51:09.777

0 投票

0 回答

24 浏览

speech-recognition - Kaldi解码中需要语音

我在 KALDI 中使用了 aspire 示例。它工作正常。我需要一个帮助，那就是我在解码时需要音频文件的语音。所以基本上当我解码一个 .wav 文件时，我需要音频的语音而不是单词（句子）。例如：单词：ago 拼音：ago ah_B g_I ow_E

可能吗？如果是，请提供帮助。

speech-recognition speech-to-text kaldi

2020-04-20T10:13:31.827

0 投票

2 回答

503 浏览

python - 运行 kaldi gst 现场演示时出现 intel mkl 致命错误

我尝试运行GST_PLUGIN_PATH=../../src/gst-plugin ./run-live.py并获取的输出错误intel mkl fatal error Intel MKL FATAL ERROR: cannot load libmkl_vml_avx2.so or libmkl_vml_def.so.

我试过export LD_PRELOAD=/opt/intel/mkl/lib/intel64/libmkl_core.so:/opt/intel/mkl/lib/intel64/libmkl_sequential.so 了，但没有解决

然后我尝试sudo pip3 install mkl 了之后我安装了一些其他的东西sudo pip3 install numpy scipy scikit-learn numexpr

并且错误仍然存在

python intel-mkl kaldi

2020-04-21T10:57:11.893

0 投票

0 回答

211 浏览

python - Python - 如何检查 TCP 服务器是否已经在为客户端提供服务

我正在使用 Kaldi 语音识别工具包的“在线 2-tcp-nnet3-decode-faster”。服务器接收原始音频并实时发送与该音频对应的文本。换句话说，当使用这样的服务器时，想法是在发送音频后立即开始转录。

如果服务器正忙于处理一个客户端请求，它就无法处理第二个请求。第二个请求将保持空闲，直到第一个转录完成并且第一个客户端关闭连接。

我想构建一个 python 客户端通过 websockets 与 TCP 服务器通信。我能够创建一个套接字连接，但是，我仍然无法确定服务器是否已经在为另一个客户端提供服务，以便我可以在其他端口上尝试其他服务器，或者即时创建一个新的服务器实例。

我正在使用类似下面的代码片段。即使服务器正在为另一个客户端提供服务，连接调用也会成功。

python tcp kaldi

2020-04-22T10:49:04.713

0 投票

0 回答

114 浏览

python - 如何根据扬声器从一个音频文件中保存多个音频文件？

我有一个音频文件，其中有 2 个扬声器，第一个朗读一个句子，然后另一个翻译它。

我想为演讲者 A 和 B 朗诵的每个句子保存一个音频文件。

示例：文件 -> book_translation.mp3（1 分钟音频）

演讲者A：“你好吗”

演讲者 B：“wie gehts”

演讲者A：“我很好”

演讲者 B：“Mir geht 的肠子”

预期输出：4 个 mp3 文件 ->
A_01.mp3 B_01.mp3 A_02.mp3 B_02.mp3

python pyaudio librosa kaldi

2020-05-01T06:34:21.323

1 2 3 4 5 6 7 8 9 10

问题标签 [kaldi]

Reference