问题标签 [vosk]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
115 浏览

java - VOSK 空文本输出?(Java)

当我试图从下面的代码中获取输出时,它会提供来自Wave文件的文本文件,该文件通过RecordRTC从客户端传输到服务器,

它给出了这个输出,问题是最终结果是Empty

0 投票
0 回答
175 浏览

android - 如何从 WebSocket 在线服务器使用 Vosk 模型?

我一直在开发一个使用语音识别服务的安卓应用,但安卓设备没有安装谷歌应用。出于这个原因,我使用 vosk API 进行语音识别,但为了提高语音识别的准确性。我需要使用更大尺寸的模型。这需要大量的资产空间。那么,如何在不包含资产或直接从在线服务器使用它们的情况下访问 vosk 模型呢?

编辑:-

我在 vosk 中看到了 Kaldi 的 WebSocket。这可以帮助我使用在线服务器上的 vosk(https://github.com/just-ai/aimybox-android-sdk/tree/master/kaldi-speechkit#online-mode)吗?在此,他们提供了有关如何使用 WebSocket 的信息并给出了一个示例,但我无法理解如何制作 WebSocket 文件。

任何有关此的帮助都是有帮助的!

0 投票
1 回答
181 浏览

speech-to-text - 使用在 Android 上运行的 Vosk (Kaldi) 提高语音识别的准确性

我正在开发一个应用程序来使用语音识别在 Android 设备上收集现场数据。有五个“目标词”,以及几个被识别的数字(零、一、十、一百等)。

我通过添加同音词(同音词)以及白话同义词提高了目标词的准确性。目标词是 Chinook、sockeye、coho、pink 和 chum。这是相关代码,

我在 GitHub 上有一个带有源代码的应用程序的简化版本:https ://github.com/portsample/salmonTalkerLite 以及 Google Play 上的最新完整版本:https: //play.google.com/store/apps/详情?id=net.blepsias.salmontalker

使用目标词和同音词,我可以在四到五秒内获得成功。我想让这更快。我可以做些什么来进一步调整速度?

0 投票
0 回答
21 浏览

python - 如何使用 vosk 模型中的“ivector”文件夹修复错误?

我想运行我的 Vosk 语音识别项目,但遇到了这个错误。我怎样才能解决这个问题?

在 Vosk 的文件夹“模型”中,我有以下文件:

模型

0 投票
0 回答
23 浏览

speech-to-text - 如何在java中使用多个vosk模型?

我想在应用程序中测试多语言可用性,以测试可能有多语言使用者的地方。例如在日本可能有外国学生的学校。应用程序应该理解不同的语言,并用他们的语言对文本进行语音。

0 投票
0 回答
29 浏览

speech-to-text - 如何在 VOSK 中实现多语言模型?

我想知道如何使用 Vosk 库在应用程序中实现多语言处理。我想制作一个支持波斯语、库尔德语和英语等多语言的应用程序。我想使用的编程语言是带有 Spring 框架的 Java。我知道我们可以实现一种口语,Model model = new Model("path to model")但是我们如何为多个模型实现呢?

0 投票
0 回答
16 浏览

python - 使用 Python 将实时语音转录代码集成到网络摄像头

我使用 Vosk 库实现了实时语音转录。它利用了声音设备和 kaldi 识别器。我必须将其集成到网络摄像头中。

我试过以下:

  1. OpenCv -> 它将只捕获视频并且它不会识别音频。
  2. AVRecorder -> 它同时录制音频和视频,但它的音频是 .wav 文件,视频是 .avi 文件。
  3. ffmpeg -> 无法查看录像。

我需要可以帮助将 vosk 实时语音转录代码(如下所示)集成到网络摄像头中的资源,即,当我录制自己并说话时,字幕必须可见。类似于缩放或 youtube 实时转录。

model = vosk.Model(os.path.join(language_model)) file = open("filename", "wb")

0 投票
0 回答
12 浏览

python-3.x - Discord 好友语音识别

我想做一个语音识别程序。我自己有代码。互联网上有很多。但无论如何我都会发布一个。

任务是同时使用语音识别和我与之不和谐交流的朋友的语音识别。我使用了 vosk 库,因为如果麦克风被另一个程序使用,speech_recognition 库会引发错误。那么 - 我如何在我的计算机上运行该程序并将音频流从不和谐传输到其中,以便识别我朋友的语音。这可能吗?