问题标签 [kaldi]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
audio-streaming - 无法将实时音频从麦克风流式传输到 PyAudio 中的远程端口
我有一个转录服务器在远程机器上的一个端口上监听音频。一切正常如果我流式传输预先录制的音频文件并将其流式传输到端口使用netcat
我无法使用麦克风作为输入来做同样的事情。我正在尝试以下操作,但由于某种原因,音频没有被流式传输,或者我看不到并且正在发生转录,或者我不确定如何在 python 中获取响应
不知道如何得到回复或是否有其他问题。Kaldi's online2-tcp-nnet3-decode-faster
在后端使用
zlib - 在 MacOS Catalina 上安装 Kaldi -- zlib 出错
我正在尝试使用需要 Kaldi 库的DiscVoice库。为了安装 Kaldi,我需要运行extras/check_dependencies.sh
检查程序的依赖关系,我目前得到:
我一直在尝试安装 zlib 库,但没有成功。我试过brew install zlib
了,它运行成功,但是当我运行时extras/check_dependencies.sh
输出没有改变以反映这一点。
我正在开发 macOS Catalina。
linux - 符号查找错误(如何将共享库与另一个库链接)
我在 Ubuntu20.04 上运行我的程序。我的程序在使用多个 Kaldi 库时产生了以下错误:
按照这个问题下的答案:符号查找错误未定义符号,但所有符号似乎都存在,我查找了输出ldd libkaldi-chain.so
:
如果我理解正确,看起来这是因为 libkaldi-chain.so 没有链接到几个共享库,如“libkaldi-cudamatrix.so”、“libkaldi-hmm.so”......
有人可以告诉我如何正确链接这些库并修复这个错误吗?我对 gcc 真的很陌生。
speech-to-text - 如何使用 cmusphinx/mozilla deepspeech/google stt 等检测填充声音,如 um、uh 等?
我正在做一个语音识别项目,任务是检测说英语的儿童/学生的音频剪辑中的填充声音,如嗯、嗯、嗯等。他们的英语口语不是很好。
如何使用 cmuSphinx/Mozilla 深度语音/谷歌云语音/Kaldi 来做到这一点?还是我需要从头开始?
我还尝试阅读有关如何构建 ASR 的其他帖子和论文,但由于它不是一个长期项目,我没有时间花在从头开始构建它并查看结果。此外,我可以接受较低的准确性,我可以声称以后会改进。
unity3d - Unity 中的 Vosk (Kaldi) 离线语音识别
如何在 Unity 项目中实现和使用 Vosk 库?请在此处编写步骤 1,2,3... Vosk 库 - https://github.com/alphacep/vosk-api
sh - 为什么 srilm 的 ngram-merge 输入错误?
这是我在这里的第一篇文章,对我糟糕的英语感到抱歉。
我正在立即使用 Kaldi 和 srilm 工具进行研究,但是在使用 ngram-merge 合并由 ngram-count 生成的 3-gram.count 文件时遇到了一个奇怪的问题。(ngram-count 和 ngram-merge 是 srilm 中的两个模块)
我在我的 shell 脚本中使用的代码如下所示:
而$dir_ngram仅代表 .count 文件的目录,而${ng}在这里是 3,因为我将 trigram 用于我的语言模型。
但是当我运行这部分代码时,发生了错误,它们看起来像这样:
似乎ngram-merge 将文件的第一行作为文件名或目录,因为 unk 符号是每个 .count 文件的第一行(以icorpus_tlu.txt_3-gram.count为例):
.count 文件的 unk 符号和第二行出现在错误消息的第一行和第三行中。我不知道为什么会这样,因为我认为 ngram-merge 应该只打开文件并开始读取 ngram,而不是将内容视为要打开的目录。另一个奇怪的是,“以内容为目录”的问题只出现在最后五个文件上。第一个文件似乎根本没有读取或目录问题。
我知道我可以简单地将语料库合并在一起,因为所有语料库都不是太大,但我只是对这个问题有点好奇。有人知道怎么解决吗?</p>
speech-recognition - 神经网络需要维度为 100 的“ivector”特征,但您提供了 0
我正在使用 gooofy zamia-speech 为 kaldi 的模型适应项目。
我按照kaldi-adapt-lm给出的步骤使用kaldi-generic-de-tdnn_f-r20190328 model 创建模型。
当我在 .wav 文件上对其进行测试时,它显示以下错误:
有人可以帮我解决吗?
先感谢您!
kaldi - 在 colab 上永久安装 Kaldi
我是语音识别的新手,我希望使用 kaldi-asr 构建一个端到端的 asr 系统。我的笔记本电脑没有 Linux,也没有足够的硬件来训练模型。因此,我计划按照https://colab.research.google.com/drive/1rp2eZRHW9OYnA1WpRGeblG6fDSyyH-my#scrollTo=46b62_fSurBK在 colab 上安装 Kaldi(以利用免费 GPU),但是在 colab 上安装 Kaldi 和一旦会话结束,恐怕我将不得不再次安装它。有什么方法可以在 Colab 上永久安装 kaldi,这样每当我再次打开它时,我就不必重新执行该过程。请帮忙。谢谢你。
python-3.x - 将 .wav 音频文件设置复制到新的 .wav 文件
目前,我正在使用一个语音到文本的翻译模型,该模型采用 .wav 文件并将音频中的可听语音转换为文本转录本。该模型之前曾用于直接录制的 .wav 音频录音。但是现在我正在尝试对视频中最初出现的音频做同样的事情。
步骤如下:
- 通过 ffmpeg 从流 url 中检索视频文件
- 从视频中剥离 .aac 音频
- 将 .aac 音频转换为 .wav
- 将 .wav 保存到 s3 以供以后使用
下面列出了我使用的 ffmpeg 命令以供参考:
现在的问题是我的语音到文本模型不再适用于该音频。我使用 sox 转换音频,但 sox 似乎没有抓取音频。同样没有袜子,模型也不起作用。这使我相信 .wav 音频格式存在差异,因此我想知道如何使用与有效的 .wav 相同的设置格式化 .wav 或 找到比较 .wav 的方法音频格式并通过 ffmpeg 手动将新的 .wav 设置为正确的格式
我尝试使用 PyPy exiftool 并找到了这两个文件的元数据:
因此可以看出,工作的 .wav 文件有一些不同的设置,我想在第二个 .wav 文件中模仿这些设置,大概这会使我的模型再次工作:)
亲切的问候,乔纳斯