问题标签 [mozilla-deepspeech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
306 浏览

android - 为 android 构建没有 ruy 的 TFLite

我正在尝试分析DeepSpeech(使用 TensorFlow 和 TFLite 的第三方库)在 android 设备上的性能,并已成功构建它,正如他们在文档中提到的那样。

看了源码后,发现tensorflow使用谷歌的ruy作为后端进行TFLite的矩阵运算。但我还发现 TFLite 源代码中支持不同的 GEMM 库,如EigenGEMMLOWP

但是我无法找到一种方法来使用它们来构建 TFLite。

我怎样才能使用它们而不是 ruy?

我的构建命令与DeepSpeech docs中的几乎相同。

我应该在命令中更改什么来更改后端库?

请注意,我构建库没有问题,并且可以成功构建它,并且对我来说效果很好。我想更改 TFLite 的后端 GEMM 库。

0 投票
0 回答
82 浏览

python - 用于为手动转录的 .wav 文件生成时间戳的 Python

我正在尝试自动生成 .wav 文件中语音和静音的时间戳。

我的输入: 多个带有英语语音的 .wav 文件。所有这些 .wav 文件都已手动转录。

我的目标: 为语音文本的开始和结束以及所有超过 2 秒的静音生成时间戳。

到目前为止我所尝试的: 我使用 Python 将我的 .wav 文件以超过 2 秒的静音分割,这是有效的。我使用了stackoverflow中的以下代码。

在此之后,我尝试使用 Deepspeech 转录分割的语音块。

但是我无法运行 Deepspeech,因为我的一些块太长了,所以代码只是运行和停止。另外,我不知道在哪里拆分它们以使它们更短。

我现在正在寻找的东西: 找到一种方法来转录我通过在沉默中分割创建的块。

  1. 有没有办法使用我的.wav 文件训练模型,以便语音转录变得容易?
  2. 或者有没有更简单的方法来使用我的 .wav 文件及其转录,以便时间戳生成变得容易?(我更喜欢非互联网方法开始......)

我希望我的问题很清楚。 谢谢!

0 投票
3 回答
360 浏览

python - 在通用语音数据集上训练 DeepSpeech 在 gpu 上出现错误

正如文档中所述,我正在尝试在 Common Voice 数据集上训练 DeepSpeech 模型。但它给出了以下错误:

我的本地机器规格如下:

蟒蛇3.7;库达 10.1;CuDNN 7.6.5;张量流-GPU 1.15.2;GPU GTX 1050 钛

我还安装了以下包和库来准备环境:

我在本地机器和 google colab vm 上都遇到了同样的问题。

编辑:我还将我的 cuda 和 cudnn 版本分别更改为 10.0 和 7.5.6。但是错误已经存在。

0 投票
2 回答
316 浏览

python - DeepSpeech 无法学习波斯语

我正在使用使用 KenLM 生成的语言模型从头开始(没有检查点)训练 DeepSpeech,如其文档中所述。该数据集是波斯语的通用语音数据集。

我的配置如下:

  1. 批量大小 = 2(由于 cuda OOM)
  2. 学习率 = 0.0001
  3. 编号。神经元 = 2048
  4. 编号。纪元 = 50
  5. 训练集大小 = 7500
  6. 测试和开发集大小 = 5000
  7. 第 1 层到第 5 层的 dropout = 0.2(也试验了 0.4,结果相同)

训练和验证损失在训练过程中减少,但经过几个时期,验证损失不再减少。train loss 约为 18,val loss 约为 40。

在过程结束时,预测都是空字符串。任何想法如何改进模型?

0 投票
1 回答
217 浏览

python - 无法在 Windows 上训练 Deepspeech 模型

我试图在 Windows 上训练 Deepspeech 模型,因为我不能使用 Linux。但是,我无法训练我收到错误

0 投票
0 回答
51 浏览

django - 如何将大量音频文件传递到 Mozilla DeepSpeech Web 套接字?

当进行现场演讲时,我想将其分成一小块 mp3 文件并将其发送到 Mozilla DeepSpeech WebSocket 进行转录

(使用设备麦克风进行讲话)

0 投票
1 回答
124 浏览

mozilla-deepspeech - 在 Google colab 上训练 deepspeech 需要遵循哪些步骤?

为了使用 Colab 训练模型,我们需要遵循哪些步骤 (A - Z)?如果我需要根据我的声音/我们国家的口音对其进行微调,如何准备我们自己的数据集?

0 投票
1 回答
241 浏览

python - 当我尝试在 google colab 上训练 DeepSpeech 模型时,我收到一条错误消息,指出不支持 .whl 文件

我使用的命令

这给了我一个错误

错误:ds_ctcdecoder-0.9.3-cp36-cp36m-manylinux1_x86_64.whl 不是该平台支持的滚轮。

我该如何解决这个问题?

0 投票
1 回答
821 浏览

python - 在安装 deepspeech 环境期间,tensorflow 依赖项不断给我 colab 中的错误

当我在 Google Colab 上运行以下命令时

出错了

当我将 gast 版本 0.2.2 更新到 0.3.2 时,它说它再次需要 gast 版本 0.2.2,当我从 gast 版本 0.3.2 降级到 0.2.2 时,它说它再次需要 gast 版本 0.2.2(副-反之亦然) 在此处输入图像描述

0 投票
1 回答
134 浏览

python - 如何转录录音以进行语音识别

下载并上传了mozilla deepepspeech相关的文件后,我开始使用google colab。我正在使用 mozilla/deepspeech 进行语音识别。下面显示的代码用于录制我的音频。录制音频后,我想使用函数/方法将录音转录为文本。一切都编译了,但文本没有正确输出。我的代码中有什么想法吗?