问题标签 [mozilla-deepspeech]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在 Deepspeech 中抛出“std::length_error”实例后调用终止
我在从头开始训练模型后尝试解码 wav 文件,我完成了训练和测试阶段没有错误,我得到了 WER & CER 和损失值。注意:我已经用这个命令完成了解码,没有错误,但是当我用新模型测试时它出现了。
我尝试了没有记分器、管道和梁的命令以及来自火车数据集的文件,但错误仍然存在。
您可以在下面找到我拥有的软件包版本(运行 pip list 显示的不仅仅是这些软件包,但我只保留了重要的软件包)
python - 增加Mozilla tts的说话限制
我是初学者,我下载了模型并尝试研究它。但是每当我将句子转换为语音时,模型会在 35 秒或大约 440 个字符处停止,并给出 max_decoder_steps 警告。我想将一个故事转换为大约 1000 个字符的语音。有没有办法绕过这个限制?
voice-recognition - Mozilla-DeepSpeech:给出一个句子并获得语音识别的匹配百分比
是否可以给 Mozilla-DeepSpeech 软件提供一个文本句子和一个声音样本并获得两者的匹配百分比?
它制作一个测验软件。程序知道响应并要求用户在麦克风中发音。
mozilla-deepspeech - Mozilla Deep Speech SST 突然无法拼写
我正在使用深度语音将语音转换为文本。高达 0.8.1,当我运行如下转录时:
我会得到非常好的结果。但自从 0.8.2 版本删除了 scorer 参数以来,我的结果充满了拼写错误,这让我觉得我现在得到了一个字符级模型,而我以前是一个单词级模型。错误的方向看起来好像模型没有以某种方式正确指定。
现在我打电话时:
我现在看到像这样的错误
- 无止境->“结束”
- 服务->“服务”
- 遗产->“遗产”
- 收入->“erting”
- 之前->“befir”
我不是 100% 认为它与从 API 中删除记分器有关,但这是我看到版本之间发生变化的一件事,文档特别建议提高准确性。
python - 如何在尝试使用 pip 安装某些依赖项时修复错误
当我遇到此错误时,我刚开始使用 Mozilla 的 Deep Speech,并尝试安装 mic_vad_streaming 示例的依赖项。我按照以下视频中的步骤进行操作,我用作参考 - https://www.youtube.com/watch?v=c_0Q3T0XYTA&t=211s。
mozilla-deepspeech - 如何查看 Mozilla 的 DeepSpeech 模型中的参数数量?
我没有找到一种简单的方法来打印模型中有多少参数,并且在发行说明中打印它的建议没有受到热烈欢迎:
https://github.com/mozilla/DeepSpeech/issues/344
https://github.com/mozilla/DeepSpeech/issues/3392
DeepSpeech 0.8.2 和 0.9.0 模型中有多少参数?
speech-recognition - 为什么添加 `--display_step 2` 参数会显着减慢 Mozilla DeepSpeech 训练时间?
我正在通过执行以下命令在 Ubuntu 16.04 LTS x64 和 4 Nvidia GeForce GTX 1080 上的 Common Voice 数据集上训练 Mozilla DeepSpeech:
它使用了 4 个 GPU 中的 80% 以上。
但是,如果我添加--display_step 2
参数,它会显着减慢训练时间,并且它使用不到 4 个 GPU 的 20%。
这让我感到惊讶,因为它--display_step
被描述为:
tf.app.flags.DEFINE_integer ('validation_step', 0, '我们在验证模型之前循环的时期数 - 详细的进度报告取决于“--display_step” - 0 表示没有验证步骤')
所以根据我的理解,模型应该每 2 个 epoch 评估一次,因此不应该减慢训练时间(即,它应该每 2 个 epoch 增加一些评估时间)。
为什么添加--display_step 2
参数会显着减慢 Mozilla DeepSpeech 训练时间?
asp.net-core - dot net core 3.1 Web 应用程序中的语音到文本,而不使用 azure 等云服务
我正在尝试在我的 .net core 3.1 Web 应用程序上实现语音到文本,而不使用 Azure、AWS 或 Google 等任何云服务。
我找到了 deepspeech、kaldi、pocketpheonix 等选项。看起来它们可以在 .net 核心应用程序上实现,但作为 .net 核心和后端开发的初学者,我不知道如何使用它们,而且它们的文档对初学者不太友好。
因此,如果您可以简要概述如何在 .net core 上实现这些 api 或链接到一些文章,那将非常有帮助。
mozilla-deepspeech - AttributeError:“NoneType”对象没有属性“impl”
运行我的程序后,我得到了一个输出,但我也得到了这个错误消息。
这是代码 - 在这里我正在尝试使用 deepspeech 库将 wv 音频文件转换为文本。