问题标签 [mozilla-deepspeech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
267 浏览

python - 在 Deepspeech 中抛出“std::length_error”实例后调用终止

我在从头开始训练模型后尝试解码 wav 文件,我完成了训练和测试阶段没有错误,我得到了 WER & CER 和损失值。注意:我已经用这个命令完成了解码,没有错误,但是当我用新模型测试时它出现了。

我尝试了没有记分器、管道和梁的命令以及来自火车数据集的文件,但错误仍然存​​在。

您可以在下面找到我拥有的软件包版本(运行 pip list 显示的不仅仅是这些软件包,但我只保留了重要的软件包)

0 投票
3 回答
189 浏览

python - 增加Mozilla tts的说话限制

我是初学者,我下载了模型并尝试研究它。但是每当我将句子转换为语音时,模型会在 35 秒或大约 440 个字符处停止,并给出 max_decoder_steps 警告。我想将一个故事转换为大约 1000 个字符的语音。有没有办法绕过这个限制?

0 投票
1 回答
57 浏览

voice-recognition - Mozilla-DeepSpeech:给出一个句子并获得语音识别的匹配百分比

是否可以给 Mozilla-DeepSpeech 软件提供一个文本句子和一个声音样本并获得两者的匹配百分比?

它制作一个测验软件。程序知道响应并要求用户在麦克风中发音。

0 投票
2 回答
726 浏览

speech-recognition - 如何在 Mozilla DeepSpeech 中将成绩单保存到文本文件中?

此命令正在运行并显示输出

但是我找不到将输出保存为文本文件的命令

我有哪些选择?我想生成语音文本以上传 youtube 视频进行字幕(是的 youtube 算法无法自动生成)

这里是上面的命令输出,但我无法将输出保存到我​​需要的文件中

在此处输入图像描述

0 投票
1 回答
180 浏览

mozilla-deepspeech - Mozilla Deep Speech SST 突然无法拼写

我正在使用深度语音将语音转换为文本。高达 0.8.1,当我运行如下转录时:

我会得到非常好的结果。但自从 0.8.2 版本删除了 scorer 参数以来,我的结果充满了拼写错误,这让我觉得我现在得到了一个字符级模型,而我以前是一个单词级模型。错误的方向看起来好像模型没有以某种方式正确指定。

现在我打电话时:

我现在看到像这样的错误

  • 无止境->“结束”
  • 服务->“服务”
  • 遗产->“遗产”
  • 收入->“erting”
  • 之前->“befir”

我不是 100% 认为它与从 API 中删除记分器有关,但这是我看到版本之间发生变化的一件事,文档特别建议提高准确性

0 投票
1 回答
316 浏览

python - 如何在尝试使用 pip 安装某些依赖项时修复错误

当我遇到此错误时,我刚开始使用 Mozilla 的 Deep Speech,并尝试安装 mic_vad_streaming 示例的依赖项。我按照以下视频中的步骤进行操作,我用作参考 - https://www.youtube.com/watch?v=c_0Q3T0XYTA&t=211s

0 投票
1 回答
184 浏览

mozilla-deepspeech - 如何查看 Mozilla 的 DeepSpeech 模型中的参数数量?

我没有找到一种简单的方法来打印模型中有多少参数,并且在发行说明中打印它的建议没有受到热烈欢迎:

https://github.com/mozilla/DeepSpeech/issues/344
https://github.com/mozilla/DeepSpeech/issues/3392

DeepSpeech 0.8.2 和 0.9.0 模型中有多少参数?

PS:discourse.mozilla上的线程

0 投票
1 回答
77 浏览

speech-recognition - 为什么添加 `--display_step 2` 参数会显着减慢 Mozilla DeepSpeech 训练时间?

我正在通过执行以下命令在 Ubuntu 16.04 LTS x64 和 4 Nvidia GeForce GTX 1080 上的 Common Voice 数据集上训练 Mozilla DeepSpeech:

它使用了 4 个 GPU 中的 80% 以上。

但是,如果我添加--display_step 2参数,它会显着减慢训练时间,并且它使用不到 4 个 GPU 的 20%。

这让我感到惊讶,因为它--display_step描述为

tf.app.flags.DEFINE_integer ('validation_step', 0, '我们在验证模型之前循环的时期数 - 详细的进度报告取决于“--display_step” - 0 表示没有验证步骤')

所以根据我的理解,模型应该每 2 个 epoch 评估一次,因此不应该减慢训练时间(即,它应该每 2 个 epoch 增加一些评估时间)。

为什么添加--display_step 2参数会显着减慢 Mozilla DeepSpeech 训练时间?

0 投票
1 回答
232 浏览

asp.net-core - dot net core 3.1 Web 应用程序中的语音到文本,而不使用 azure 等云服务

我正在尝试在我的 .net core 3.1 Web 应用程序上实现语音到文本,而不使用 Azure、AWS 或 Google 等任何云服务。

我找到了 deepspeech、kaldi、pocketpheonix 等选项。看起来它们可以在 .net 核心应用程序上实现,但作为 .net 核心和后端开发的初学者,我不知道如何使用它们,而且它们的文档对初学者不太友好。

因此,如果您可以简要概述如何在 .net core 上实现这些 api 或链接到一些文章,那将非常有帮助。

0 投票
1 回答
330 浏览

mozilla-deepspeech - AttributeError:“NoneType”对象没有属性“impl”

运行我的程序后,我得到了一个输出,但我也得到了这个错误消息。

这是代码 - 在这里我正在尝试使用 deepspeech 库将 wv 音频文件转换为文本。