问题标签 [vosk]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
1550 浏览

dictionary - 如何修改或编辑vosk字典?

我正在使用 vosk 进行语音识别。有谁知道词汇词典的位置以及如何编辑它以添加或删除单词?

我的项目的一些背景:

我正在做一个语言人工智能项目。我需要一个语音识别引擎来将口语转换成文本。我开始使用 CMUSphinx。PocketSphinx 更精确。我喜欢pocketsphinx,但有人告诉我它已经过时了,而vosk要好得多。然而,就从头开始创建字典和以编程方式在不同字典之间切换而言,pocketsphinx 非常易于使用。

我正在尝试使用 vosk 作为语音识别器。它似乎确实可以更快、更准确地解码语音。但到目前为止,我还没有找到任何关于如何修改词汇词典的信息。在我的语言 AI ​​项目中,修改字典内容的能力至关重要。因此,如果有人能指出如何修改 vosk 字典的信息,我将不胜感激。到目前为止,我还没有找到有关如何执行此操作的任何信息。关于 vosk 的资料很少,特别是教程或详细说明的方式。

谢谢你。

编辑添加:

这是我所指的 vosk API 的 GitHub 页面:

https://github.com/alphacep/vosk-api

0 投票
1 回答
933 浏览

python - 安装 alphacep(VOSK API) Python

回忆。我https://github.com/alphacep/vosk-api我正在尝试设置它,但我不能,之前有人可以设置它吗?

0 投票
1 回答
1812 浏览

unity3d - Unity 中的 Vosk (Kaldi) 离线语音识别

如何在 Unity 项目中实现和使用 Vosk 库?请在此处编写步骤 1,2,3... Vosk 库 - https://github.com/alphacep/vosk-api

0 投票
1 回答
3034 浏览

python-3.x - 用于语音识别的 Vosk-api python。类似谷歌的语音适应功能?

所以 Vosk-api 是一个出色的离线语音识别器,具有出色的支持,但在本文发布时(2020 年 8 月 14 日)文档非常差(或巧妙地隐藏)

问题是:是否有任何替代google-speech-recognizer功能,允许通过语音适应进行额外的转录改进?

例如

对于谷歌来说,这个配置意味着短语天气将具有更高的优先级,例如,哪个听起来相同。

还是类令牌?我知道它可能不会在 Vosk for python3 中实现,但仍然......

以下是参考资料:

https://cloud.google.com/speech-to-text/docs/class-tokens


https://cloud.google.com/speech-to-text/docs/speech-adaptation

0 投票
1 回答
260 浏览

java - 语音识别不断在后台android

我想开发应用程序,只要它识别出一个关键字,它就会做一些事情。它需要一直处于聆听模式,也需要在后台。我接触过这个这个。我在运行它,但是当我说话时它不起作用。实际上我读它仍然不支持我的母语。是这个原因吗?我想知道它是如何工作的?它是否正在对文本进行语音并将其保存在资产文件中?它在后台运行吗?是用AI模型吗?当两个应用程序需要并行麦克风资源时它的行为如何?噪音?它可以与神经网络 API 一起使用吗?我怎样才能开始开发这样的东西?

谢谢!

0 投票
0 回答
118 浏览

android - 使用 Agora 和 Vosk 时无法转录语音

我正在使用 Agora SDK 进行语音通话,并且我希望在通话时进行语音转录,所以我使用 Vosk SDK 来转录我的语音

在这里,我面临一个问题,即不是两个 SDK 同时都可以工作,要么 Agora Voice call 可以工作,要么 Vosk

这里的问题是一次只有一个 AudioRecorder 可以访问录音

但是我希望两者可以一起工作,以便我可以同时实现语音转文本和语音通话功能

有什么办法可以解决这个问题吗?

0 投票
1 回答
480 浏览

python - vosk 翻译输出只显示最后一批翻译

当我尝试使用我自己的音频文件运行 test_ffmpeg.py 时,它并没有真正显示最后的所有翻译。但它只显示最后一段/批次。就像,我的音频文件是这样的:

将会发生的事情是它会闪烁所有这些文本,并且看起来它们已按预期翻译,但在脚本的末尾,它只显示The quick brown fox jumps over the lazy bat作为最终结果

在检查实际文件时,这一行应该显示所有翻译的文本,但它只打印捕获的最后一部分。

0 投票
0 回答
103 浏览

python - 需要为每次转录重新加载 vosk 模型?

我使用的 vosk 模型是 vosk-model-en-us-aspire-0.2 (1.4GB)。每次都需要相当长的时间来加载 vosk 模型。每次都需要重新创建vosk对象吗?如果我们只加载一次模型,加载模型需要很长时间。它可以节省至少一半的时间。

0 投票
0 回答
232 浏览

node.js - 如何将数据从 RecordRTC 发送到 Vosk 以进行语音转文本

我正在使用 Vosk 服务器进行语音到文本的转换。我发送使用此方法获得的音频/wav blob 数据

从 RecordRTC ( https://recordrtc.org/RecordRTC.html ) 在 16000 个样本中使用 LINEAR16 编码到 Vosk WebSocket 服务器 ( https://github.com/alphacep/vosk-server/blob/master/websocket/asr_server.py)。该服务器使用 Vosk-server 附带的 test16k.wav 文件进行测试,但对我的音频数据返回一个空的检测响应。将数据发送到 Vosk 的正确方法是什么?

0 投票
0 回答
168 浏览

python - Vosk / 豪猪费勒

我对 Vosk a 有疑问。豪猪控制台:

我的代码: