问题标签 [vosk]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - VOSK 空文本输出?(Java)
当我试图从下面的代码中获取输出时,它会提供来自Wave文件的文本文件,该文件通过RecordRTC从客户端传输到服务器,
它给出了这个输出,问题是最终结果是Empty:
android - 如何从 WebSocket 在线服务器使用 Vosk 模型?
我一直在开发一个使用语音识别服务的安卓应用,但安卓设备没有安装谷歌应用。出于这个原因,我使用 vosk API 进行语音识别,但为了提高语音识别的准确性。我需要使用更大尺寸的模型。这需要大量的资产空间。那么,如何在不包含资产或直接从在线服务器使用它们的情况下访问 vosk 模型呢?
编辑:-
我在 vosk 中看到了 Kaldi 的 WebSocket。这可以帮助我使用在线服务器上的 vosk(https://github.com/just-ai/aimybox-android-sdk/tree/master/kaldi-speechkit#online-mode)吗?在此,他们提供了有关如何使用 WebSocket 的信息并给出了一个示例,但我无法理解如何制作 WebSocket 文件。
任何有关此的帮助都是有帮助的!
speech-to-text - 使用在 Android 上运行的 Vosk (Kaldi) 提高语音识别的准确性
我正在开发一个应用程序来使用语音识别在 Android 设备上收集现场数据。有五个“目标词”,以及几个被识别的数字(零、一、十、一百等)。
我通过添加同音词(同音词)以及白话同义词提高了目标词的准确性。目标词是 Chinook、sockeye、coho、pink 和 chum。这是相关代码,
我在 GitHub 上有一个带有源代码的应用程序的简化版本:https ://github.com/portsample/salmonTalkerLite 以及 Google Play 上的最新完整版本:https: //play.google.com/store/apps/详情?id=net.blepsias.salmontalker
使用目标词和同音词,我可以在四到五秒内获得成功。我想让这更快。我可以做些什么来进一步调整速度?
speech-to-text - 如何在java中使用多个vosk模型?
我想在应用程序中测试多语言可用性,以测试可能有多语言使用者的地方。例如在日本可能有外国学生的学校。应用程序应该理解不同的语言,并用他们的语言对文本进行语音。
speech-to-text - 如何在 VOSK 中实现多语言模型?
我想知道如何使用 Vosk 库在应用程序中实现多语言处理。我想制作一个支持波斯语、库尔德语和英语等多语言的应用程序。我想使用的编程语言是带有 Spring 框架的 Java。我知道我们可以实现一种口语,Model model = new Model("path to model")
但是我们如何为多个模型实现呢?
python - 使用 Python 将实时语音转录代码集成到网络摄像头
我使用 Vosk 库实现了实时语音转录。它利用了声音设备和 kaldi 识别器。我必须将其集成到网络摄像头中。
我试过以下:
- OpenCv -> 它将只捕获视频并且它不会识别音频。
- AVRecorder -> 它同时录制音频和视频,但它的音频是 .wav 文件,视频是 .avi 文件。
- ffmpeg -> 无法查看录像。
我需要可以帮助将 vosk 实时语音转录代码(如下所示)集成到网络摄像头中的资源,即,当我录制自己并说话时,字幕必须可见。类似于缩放或 youtube 实时转录。
model = vosk.Model(os.path.join(language_model)) file = open("filename", "wb")
python-3.x - Discord 好友语音识别
我想做一个语音识别程序。我自己有代码。互联网上有很多。但无论如何我都会发布一个。
任务是同时使用语音识别和我与之不和谐交流的朋友的语音识别。我使用了 vosk 库,因为如果麦克风被另一个程序使用,speech_recognition 库会引发错误。那么 - 我如何在我的计算机上运行该程序并将音频流从不和谐传输到其中,以便识别我朋友的语音。这可能吗?