问题标签 [vosk]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
linux - 无法编译 .c,因为它找不到 .h 文件
我在 ubuntu 18.04 上,我正在尝试编译一个 .c 文件,该文件附带我正在使用的 API,称为vosk。问题是python代码没有任何问题但是如果我尝试
他们提供的用于运行 API 的 .c 文件给了我这个错误:
所以我尝试了make
与 test_vosk.c 文件位于同一目录中的 Makefile,但它给了我:
这是有道理的,因为目录 /usr/bin/ld 实际上并不存在于我的机器上。然后我尝试将 vosk_api.h 文件从它的目录(这是包含 test_vosk.c 的目录的父目录)移动到 test_vosk.c 文件的同一目录并更改
成一个
现在如果我再次编译
它给了我:
我已经坚持了好几天了,我真的不知道该去哪里,我对 linux 还是很陌生,因为我仍在学习基础知识,但如果有人可以帮助我,我将不胜感激。提前致谢!
java - 使用java中的麦克风进行VOSK的语音识别
我正在尝试将实时语音识别添加到我的 java 项目中(最好是离线)。通过一些谷歌搜索和尝试其他解决方案,我决定使用 VOSK 进行语音识别。然而,我遇到的主要问题是 VOSK 的文档很少,并且只有一个 java 示例文件,用于从预先录制的 wav 文件中提取文本,如下所示。
我试图将其转换为可以接受麦克风音频的东西,如下所示:
这似乎正确地捕获了麦克风数据(因为它也输出到扬声器),但 VOSK 显示没有输入,不断地将结果打印为空字符串。我究竟做错了什么?我正在尝试的甚至可能吗?我应该尝试找到一个不同的语音识别库吗?
c - 由于使用 vosk 的分段错误,无法运行 .c
我在 ubuntu 18.04 上,我正在尝试运行一个 .c 文件,该文件附带一个我只想运行的名为vosk的 API。问题是 python 脚本(API 附带的标准)没有任何问题,但是在使用它们提供make
的 .c 文件(称为test_vosk.c
)编译之后(所以我没有编写它)来运行 API:
并通过做来运行它
我收到此错误:
如果我尝试./test_vosk_speaker
(这基本上是相同的脚本但具有另一个功能)会发生类似的事情:
这个 API 与另一个名为Kaldi的库一起使用,例如来自./test_vosk_speaker
可能的错误提示与它相关的问题(这很奇怪,因为 python 工作!)。我仍在尝试学习 linux,但我真的不知道在哪里寻找这些东西,如果有人可以帮助我,那将非常有帮助。提前致谢!
如果它可以帮助编译的Makefiletest_vosk.c
里面是这样的
并且要运行的脚本需要将模型放在同一目录中的文件夹中,test_vosk.c
但是如果您不这样做并运行./test_vosk
它,它将找不到模型,这是出现的错误:
pygame - Pygame 按键在 Jupyter Lab 的第二次运行单元格中不起作用
当我在 Jupyter Lab 中重新启动内核后运行下面的代码时,如果我按下空格键,'aaa'
则会出现突出显示(应该如此)。
但是,如果我不得不再次重新运行同一个单元格(没有重新启动内核),空格键只会导致 Jupyter Lab 向下滚动并且它被忽略,pygame
尽管程序在其他所有方面仍在运行
关于每次在 Jupyter Lab 中运行该单元时如何使按键工作的任何想法?
谢谢
python - Sounddevice python包不从麦克风获取输入
我在 python 中遇到了“sounddevice”包的问题。具体来说,该软件包能够识别我笔记本电脑(Windows 10)中默认麦克风的音频,但是当我将它连接到 airpods 时,它似乎没有检测到任何音频。此外,我也能够从 PyAudio 流中检测到类似的行为。
为了确认,airpod 的麦克风和扬声器确实可以正常工作。另外,我正在使用 vosk 库。我将提供一个片段代码(我怀疑导致错误的代码部分)和整个代码。
片段代码:
完整代码:
此外,上面的完整代码是可复制的,但您必须下载 1.0 GB 的模型(https://alphacephei.com/vosk/models/vosk-model-en-us-daanzu-20200905.zip)或者您可以下载127 MB 的更轻版本(https://alphacephei.com/vosk/models/vosk-model-en-us-daanzu-20200905-lgraph.zip)[但我不确定更轻的版本 nas 我还没有尝试过],然后提取脚本所在的 .zip 文件并将其命名为“音频模型”。对于依赖项,pip3 install vosk
并且pip3 install sounddevice
.
这是我第一次在这个网站上发布问题,所以我提前为错误的格式道歉。
编辑
我不知道它是否有帮助,但是当我在通话(Zoom、Teams、Discord 等)并连接了我的 airpods 并且我尝试应用程序来识别它时,它会识别它。但是,当通话结束并且我断开连接时,它会停止识别。
python - 如何使用 Vosk 离线语音识别(或任何其他快速离线语音识别器)为虚拟助手设置唤醒词
我想要一个快速的离线语音识别器(如 vosk 或 sphinx)作为谷歌语音识别的唤醒词,所以它并不总是能听到我们说的话。
想要唤醒这个词:
vosk - 是否有可能用 Vosk 而不是完整的单词来获得音素的时间?
Vosk 可以很好地输出单词的时序,但是对于单词中的音节/音素,Vosk 是否有选项或技术可以将输出分开?
python - python中的vosk:获取音频文件中转录文本的位置
使用与 Vosk 存储库中的 test_ffmpeg.py 非常相似的文件,我正在探索可以从音频文件中获取哪些文本信息。
这是我正在使用的整个脚本的代码。
此示例运行良好,但是,我可以从 rec.PartialResult() 和 rec.Result() 中找到的唯一返回是带有结果的字符串字典。有没有办法查询 KaldiRecognizer 在音频文件中找到单个单词的时间?
当我输入这个时,我已经在考虑详细说明结果,并检测部分结果与当前样本相比的变化会给我想要的东西,但我把它贴在这里以防万一它已经实施的。
java - java中VOSK语音识别的模型文件应该放在哪里?错误(VoskAPI:Model():model.cc:122)
我曾尝试使用 VOSK,但收到此错误: