问题标签 [vosk]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
166 浏览

linux - 无法编译 .c,因为它找不到 .h 文件

我在 ubuntu 18.04 上,我正在尝试编译一个 .c 文件,该文件附带我正在使用的 API,称为vosk。问题是python代码没有任何问题但是如果我尝试

他们提供的用于运行 API 的 .c 文件给了我这个错误:

所以我尝试了make与 test_vosk.c 文件位于同一目录中的 Makefile,但它给了我:

这是有道理的,因为目录 /usr/bin/ld 实际上并不存在于我的机器上。然后我尝试将 vosk_api.h 文件从它的目录(这是包含 test_vosk.c 的目录的父目录)移动到 test_vosk.c 文件的同一目录并更改

成一个

现在如果我再次编译

它给了我:

我已经坚持了好几天了,我真的不知道该去哪里,我对 linux 还是很陌生,因为我仍在学习基础知识,但如果有人可以帮助我,我将不胜感激。提前致谢!

0 投票
2 回答
856 浏览

java - 使用java中的麦克风进行VOSK的语音识别

我正在尝试将实时语音识别添加到我的 java 项目中(最好是离线)。通过一些谷歌搜索和尝试其他解决方案,我决定使用 VOSK 进行语音识别。然而,我遇到的主要问题是 VOSK 的文档很少,并且只有一个 java 示例文件,用于从预先录制的 wav 文件中提取文本,如下所示。

我试图将其转换为可以接受麦克风音频的东西,如下所示:

这似乎正确地捕获了麦克风数据(因为它也输出到扬声器),但 VOSK 显示没有输入,不断地将结果打印为空字符串。我究竟做错了什么?我正在尝试的甚至可能吗?我应该尝试找到一个不同的语音识别库吗?

0 投票
1 回答
140 浏览

c - 由于使用 vosk 的分段错误,无法运行 .c

我在 ubuntu 18.04 上,我正在尝试运行一个 .c 文件,该文件附带一个我只想运行的名为vosk的 API。问题是 python 脚本(API 附带的标准)没有任何问题,但是在使用它们提供make的 .c 文件(称为test_vosk.c)编译之后(所以我没有编写它)来运行 API:

并通过做来运行它

我收到此错误:

如果我尝试./test_vosk_speaker(这基本上是相同的脚本但具有另一个功能)会发生类似的事情:

这个 API 与另一个名为Kaldi的库一起使用,例如来自./test_vosk_speaker可能的错误提示与它相关的问题(这很奇怪,因为 python 工作!)。我仍在尝试学习 linux,但我真的不知道在哪里寻找这些东西,如果有人可以帮助我,那将非常有帮助。提前致谢!

如果它可以帮助编译的Makefiletest_vosk.c里面是这样的

并且要运行的脚本需要将模型放在同一目录中的文件夹中,test_vosk.c但是如果您不这样做并运行./test_vosk它,它将找不到模型,这是出现的错误:

0 投票
0 回答
30 浏览

pygame - Pygame 按键在 Jupyter Lab 的第二次运行单元格中不起作用

当我在 Jupyter Lab 中重新启动内核后运行下面的代码时,如果我按下空格键,'aaa'则会出现突出显示(应该如此)。

但是,如果我不得不再次重新运行同一个单元格(没有重新启动内核),空格键只会导致 Jupyter Lab 向下滚动并且它被忽略,pygame尽管程序在其他所有方面仍在运行

关于每次在 Jupyter Lab 中运行该单元时如何使按键工作的任何想法?

谢谢

0 投票
0 回答
237 浏览

python - Sounddevice python包不从麦克风获取输入

我在 python 中遇到了“sounddevice”包的问题。具体来说,该软件包能够识别我笔记本电脑(Windows 10)中默认麦克风的音频,但是当我将它连接到 airpods 时,它似乎没有检测到任何音频。此外,我也能够从 PyAudio 流中检测到类似的行为。

为了确认,airpod 的麦克风和扬声器确实可以正常工作。另外,我正在使用 vosk 库。我将提供一个片段代码(我怀疑导致错误的代码部分)和整个代码。

片段代码:

完整代码:

此外,上面的完整代码是可复制的,但您必须下载 1.0 GB 的模型(https://alphacephei.com/vosk/models/vosk-model-en-us-daanzu-20200905.zip)或者您可以下载127 MB 的更轻版本(https://alphacephei.com/vosk/models/vosk-model-en-us-daanzu-20200905-lgraph.zip)[但我不确定更轻的版本 nas 我还没有尝试过],然后提取脚本所在的 .zip 文件并将其命名为“音频模型”。对于依赖项,pip3 install vosk并且pip3 install sounddevice.

这是我第一次在这个网站上发布问题,所以我提前为错误的格式道歉。

编辑
我不知道它是否有帮助,但是当我在通话(Zoom、Teams、Discord 等)并连接了我的 airpods 并且我尝试应用程序来识别它时,它会识别它。但是,当通话结束并且我断开连接时,它会停止识别。

0 投票
1 回答
191 浏览

python - 如何使用 Vosk 离线语音识别(或任何其他快速离线语音识别器)为虚拟助手设置唤醒词

我想要一个快速的离线语音识别器(如 vosk 或 sphinx)作为谷歌语音识别的唤醒词,所以它并不总是能听到我们说的话。

想要唤醒这个词:

0 投票
0 回答
27 浏览

vosk - 是否有可能用 Vosk 而不是完整的单词来获得音素的时间?

Vosk 可以很好地输出单词的时序,但是对于单词中的音节/音素,Vosk 是否有选项或技术可以将输出分开?

0 投票
1 回答
490 浏览

python - python中的vosk:获取音频文件中转录文本的位置

使用与 Vosk 存储库中的 test_ffmpeg.py 非常相似的文件,我正在探索可以从音频文件中获取哪些文本信息。

这是我正在使用的整个脚本的代码。

此示例运行良好,但是,我可以从 rec.PartialResult() 和 rec.Result() 中找到的唯一返回是带有结果的字符串字典。有没有办法查询 KaldiRecognizer 在音频文件中找到单个单词的时间?

当我输入这个时,我已经在考虑详细说明结果,并检测部分结果与当前样本相比的变化会给我想要的东西,但我把它贴在这里以防万一它已经实施的。

0 投票
0 回答
36 浏览

android - VoskAPI:ExpectToken():io-funcs.cc:200) 无法读取令牌 [从文件位置 0 开始],预期

我有一个使用 kaldi 对几个单词进行语音识别的自定义训练模型。现在,当我使用 android studio 在 vosk 中整合 kaldi 模型时,它给了我这个错误。请有人帮助我。

VoskAPI:ExpectToken():io-funcs.cc:200) 无法读取令牌 [从文件位置 0 开始],预期

请点击下面的蓝色文字打开图片。 安卓工作室错误

我的模型结构

android studio java的完整代码。

0 投票
1 回答
217 浏览

java - java中VOSK语音识别的模型文件应该放在哪里?错误(VoskAPI:Model():model.cc:122)

我曾尝试使用 VOSK,但收到此错误: