问题标签 [vosk]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
dictionary - 如何修改或编辑vosk字典?
我正在使用 vosk 进行语音识别。有谁知道词汇词典的位置以及如何编辑它以添加或删除单词?
我的项目的一些背景:
我正在做一个语言人工智能项目。我需要一个语音识别引擎来将口语转换成文本。我开始使用 CMUSphinx。PocketSphinx 更精确。我喜欢pocketsphinx,但有人告诉我它已经过时了,而vosk要好得多。然而,就从头开始创建字典和以编程方式在不同字典之间切换而言,pocketsphinx 非常易于使用。
我正在尝试使用 vosk 作为语音识别器。它似乎确实可以更快、更准确地解码语音。但到目前为止,我还没有找到任何关于如何修改词汇词典的信息。在我的语言 AI 项目中,修改字典内容的能力至关重要。因此,如果有人能指出如何修改 vosk 字典的信息,我将不胜感激。到目前为止,我还没有找到有关如何执行此操作的任何信息。关于 vosk 的资料很少,特别是教程或详细说明的方式。
谢谢你。
编辑添加:
这是我所指的 vosk API 的 GitHub 页面:
python - 安装 alphacep(VOSK API) Python
回忆。我https://github.com/alphacep/vosk-api我正在尝试设置它,但我不能,之前有人可以设置它吗?
unity3d - Unity 中的 Vosk (Kaldi) 离线语音识别
如何在 Unity 项目中实现和使用 Vosk 库?请在此处编写步骤 1,2,3... Vosk 库 - https://github.com/alphacep/vosk-api
python-3.x - 用于语音识别的 Vosk-api python。类似谷歌的语音适应功能?
所以 Vosk-api 是一个出色的离线语音识别器,具有出色的支持,但在本文发布时(2020 年 8 月 14 日)文档非常差(或巧妙地隐藏)
问题是:是否有任何替代google-speech-recognizer功能,允许通过语音适应进行额外的转录改进?
例如
对于谷歌来说,这个配置意味着短语天气将具有更高的优先级,例如,哪个听起来相同。
还是类令牌?我知道它可能不会在 Vosk for python3 中实现,但仍然......
以下是参考资料:
https://cloud.google.com/speech-to-text/docs/class-tokens
https://cloud.google.com/speech-to-text/docs/speech-adaptation
android - 使用 Agora 和 Vosk 时无法转录语音
我正在使用 Agora SDK 进行语音通话,并且我希望在通话时进行语音转录,所以我使用 Vosk SDK 来转录我的语音
在这里,我面临一个问题,即不是两个 SDK 同时都可以工作,要么 Agora Voice call 可以工作,要么 Vosk
这里的问题是一次只有一个 AudioRecorder 可以访问录音
但是我希望两者可以一起工作,以便我可以同时实现语音转文本和语音通话功能
有什么办法可以解决这个问题吗?
python - vosk 翻译输出只显示最后一批翻译
当我尝试使用我自己的音频文件运行 test_ffmpeg.py 时,它并没有真正显示最后的所有翻译。但它只显示最后一段/批次。就像,我的音频文件是这样的:
将会发生的事情是它会闪烁所有这些文本,并且看起来它们已按预期翻译,但在脚本的末尾,它只显示The quick brown fox jumps over the lazy bat作为最终结果
在检查实际文件时,这一行应该显示所有翻译的文本,但它只打印捕获的最后一部分。
python - 需要为每次转录重新加载 vosk 模型?
我使用的 vosk 模型是 vosk-model-en-us-aspire-0.2 (1.4GB)。每次都需要相当长的时间来加载 vosk 模型。每次都需要重新创建vosk对象吗?如果我们只加载一次模型,加载模型需要很长时间。它可以节省至少一半的时间。
node.js - 如何将数据从 RecordRTC 发送到 Vosk 以进行语音转文本
我正在使用 Vosk 服务器进行语音到文本的转换。我发送使用此方法获得的音频/wav blob 数据
从 RecordRTC ( https://recordrtc.org/RecordRTC.html ) 在 16000 个样本中使用 LINEAR16 编码到 Vosk WebSocket 服务器 ( https://github.com/alphacep/vosk-server/blob/master/websocket/asr_server.py)。该服务器使用 Vosk-server 附带的 test16k.wav 文件进行测试,但对我的音频数据返回一个空的检测响应。将数据发送到 Vosk 的正确方法是什么?
python - Vosk / 豪猪费勒
我对 Vosk a 有疑问。豪猪控制台:
我的代码: