问题标签 [kaldi]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - PyAudio 回调在阻塞操作期间未运行
我正在编写一个音频处理脚本,它监听音频并在其上运行语音识别。我正在使用 PyAudio 回调函数来捕获音频帧并在音频电平高于某个阈值时触发录制/停止。
问题是,只要在剪辑上运行语音识别(在主循环中),回调似乎就不会运行。这令人困惑,因为我相信回调在单独的线程中运行。如果我用 替换该行speech = get_text(samples)
,time.sleep(10)
则在主循环阻塞时继续调用回调。当我执行其他操作(例如计算math.sin
10 秒)时,回调也继续正常工作。
我的问题是,什么可能导致回调停止在自己的线程中运行,同时在主线程中运行任意代码,同时time.sleep
允许它?
python - Kaldi 是否返回任何识别置信度参数,类似于 Google Speech-To-Text API?
我正在处理语音识别任务。到目前为止,我一直在使用Google Cloud Speech Recognition API(Python 中)并取得了不错的效果。API 返回一个置信度值以及转录文本的每一块。如文档中所述,置信度是一个介于 0 和 1 之间的数字,但我没有找到任何关于 Google 的 API 如何派生该数字的更深入解释,因此我假设它以某种方式来自进行识别的神经网络。
我想采取的下一步是制作我自己的(离线)自动语音识别程序,我发现pyKaldi应该可以胜任这项任务。我还没有开始编程,但我想事先知道(出于研究目的)——Kaldi 能否像 Google Speech-to-Text API 一样返回一些类似的信心值?这种“信心”究竟是什么,它是如何计算的?
javascript - 通过 ip 地址连接到 websocket 被 firefox 拒绝
我想建立到我自己的服务器的 websocket 连接。
我尝试的代码如下:
但我收到一个错误Firefox kann keine Verbindung zu dem Server unter ws://137.250.171.212:8888/ws/speech aufbauen.
,翻译为Firefox could not establish a connection to ws://137.250.171.212:8888/ws/speech
服务器肯定已启动并正在运行。我很感激任何帮助。
intel-mkl - 在运行 macOS Catalina 的 Mac 上构建 Kaldi
我正在使用运行 macOS Catalina (v10.15.1) 的 Mac Pro。有没有人设法用这个版本的操作系统构建 Kaldi?
具体来说,Kaldi 的依赖项之一是英特尔数学内核库(MKL 或其他一些合适的矩阵代数库)。MKL 没有与 Catalina 兼容的版本。我愿意使用另一个库,但我需要一些关于如何安装另一个库并使其与 Kaldi 一起运行的指导。
speech-recognition - 用英语训练模型,但用另一种语言评估语音分类任务?
对于语音分类任务,我可以只在基于英语的数据集(单个单词的表达)上训练我的模型,但用我的语言进行评估吗?或者这没有意义,模型会显示出糟糕的结果?
我需要实现一个相当简单的模型,但我的语言没有数据集。
dependencies - Zlib 未安装在 Cygwin 中 - Kaldi
我想在 Cygwin 环境中安装 Kaldi。
我已经安装了所有必要的依赖项和软件包。
当我运行 check_dependencies 时,我收到类似的错误,
check_dependencies.sh: zlib 没有安装
./check_dependencies.sh:缺少以下先决条件;首先安装它们:zlib1g-d
但是这个问题似乎仍然存在,尽管我已经选择了所有包含 Zlib 的依赖项。
谁能帮助我,为什么会这样?
我已经搜索了互联网和这个论坛。但似乎没有什么是令人满意的。
请帮我解决这个问题。
xcode - 在 Majave 上安装 Kaldi:编译器错误
我正在尝试安装 Kaldi,为此我安装了相关的东西(例如 gcc、automakers、autoconf 等)。但是,因为编译错误,我无法更进一步......错误信息如下......
当我输入更具体的命令“make CXX=g++-4.8”时,错误消息如下。看来这需要 g++ 4.8.3.、Apple Xcode 5.0 或 clang 3.3,但我的是 gcc 和 gcc@4.9(通过 brew 安装),而我的 Xcode 和 clang 远远超出 5.0 和 3.3。如果这些是问题,我想问一下如何安装它们(我尝试安装g++ 4.8.3,但是brew上似乎没有提供“gcc48”,我找不到Xcode 5.0安装文件......)。
对于给您带来的任何不便,我深表歉意,非常感谢您的所有时间!
<< gcc -v 检查>>
<< 放置更具体的命令时可能出现的问题>>
speech-recognition - 训练后的 KALDI
这些天我一直在学习 KALDI,我按照教程完成了一些示例,例如 yesno、voxforge、ynstadial 和自定义数字 ASR。
但是在完成上述所有操作后,我只得到了 WER 5% 和一些日志。
我怎样才能像麦克风或其他东西一样使用它们?
另外,我正在尝试对 KALDI 虚拟教程的示例进行一些增量学习或迁移培训,但我不知道如何开始。任何人都可以帮助我学习什么或做什么?
感谢您的帮助!
c++ - 如何编辑 GrammarFst 的权重?
当您拥有标准 fst 时,您可以将其加载为 MutableFst 并执行以下操作:
这将改变内存中弧的值。
但是,当我有 ConstFst 时,我从 GrammarFst.instances_ 向量中获得了类似的东西:
我无法base_fst
使用 MutableArcIterator 进行索引,因为它是 ConstFst。如果不对 Kaldi/Openfst 进行重大修改,这是否可能?
当我尝试这样做时:
我得到:
我的问题:
我需要instances_
在运行时访问 GrammarFst 对象并更改弧权重。我目前不能这样做,因为 GrammarFst.instance_ 是 ConstFsts。
可行的解决方案:
- 在运行时将 GrammarFst.instances_ 转换为 StdFst
- 从磁盘加载时将 GrammarFst.instances_ 转换为 StdFst
- 保存 GrammarFst 时将 GrammarFst.instances_ 保存为 StdFst
不起作用的解决方案:
- 将整个 GrammarFst 保存为 StdFst,(因此取消引用 instances_ 并将它们复制到它们出现的主 fst 中的每个位置。这大大增加了文件大小(~10X)并且对我不起作用
python - 使用 kaldi_io (python) UnicodeDecodeError 读取 .scp 文件
我正在尝试在 python 中使用 kaldi_io 读取 scp 文件:
我收到此错误:
我不知道如何解决这个问题