问题标签 [mozilla-deepspeech]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

92 问题

0 投票

1 回答

306 浏览

android - 为 android 构建没有 ruy 的 TFLite

我正在尝试分析DeepSpeech（使用 TensorFlow 和 TFLite 的第三方库）在 android 设备上的性能，并已成功构建它，正如他们在文档中提到的那样。

看了源码后，发现tensorflow使用谷歌的ruy作为后端进行TFLite的矩阵运算。但我还发现 TFLite 源代码中支持不同的 GEMM 库，如Eigen和GEMMLOWP。

但是我无法找到一种方法来使用它们来构建 TFLite。

我怎样才能使用它们而不是 ruy？

我的构建命令与DeepSpeech docs中的几乎相同。

我应该在命令中更改什么来更改后端库？

请注意，我构建库没有问题，并且可以成功构建它，并且对我来说效果很好。我想更改 TFLite 的后端 GEMM 库。

2021-04-15T21:08:23.347

0 投票

0 回答

82 浏览

python - 用于为手动转录的 .wav 文件生成时间戳的 Python

我正在尝试自动生成 .wav 文件中语音和静音的时间戳。

我的输入： 多个带有英语语音的 .wav 文件。所有这些 .wav 文件都已手动转录。

我的目标： 为语音文本的开始和结束以及所有超过 2 秒的静音生成时间戳。

到目前为止我所尝试的： 我使用 Python 将我的 .wav 文件以超过 2 秒的静音分割，这是有效的。我使用了stackoverflow中的以下代码。

在此之后，我尝试使用 Deepspeech 转录分割的语音块。

但是我无法运行 Deepspeech，因为我的一些块太长了，所以代码只是运行和停止。另外，我不知道在哪里拆分它们以使它们更短。

我现在正在寻找的东西： 找到一种方法来转录我通过在沉默中分割创建的块。

有没有办法使用我的.wav 文件训练模型，以便语音转录变得容易？
或者有没有更简单的方法来使用我的 .wav 文件及其转录，以便时间戳生成变得容易？（我更喜欢非互联网方法开始......）

我希望我的问题很清楚。 谢谢！

python speech-recognition speech-to-text mozilla-deepspeech timestamping

2021-04-18T10:49:11.703

0 投票

3 回答

360 浏览

python - 在通用语音数据集上训练 DeepSpeech 在 gpu 上出现错误

正如文档中所述，我正在尝试在 Common Voice 数据集上训练 DeepSpeech 模型。但它给出了以下错误：

我的本地机器规格如下：

蟒蛇3.7；库达 10.1；CuDNN 7.6.5；张量流-GPU 1.15.2；GPU GTX 1050 钛

我还安装了以下包和库来准备环境：

我在本地机器和 google colab vm 上都遇到了同样的问题。

编辑：我还将我的 cuda 和 cudnn 版本分别更改为 10.0 和 7.5.6。但是错误已经存在。

python tensorflow deep-learning speech-recognition mozilla-deepspeech

2021-04-21T14:48:01.827

0 投票

2 回答

316 浏览

python - DeepSpeech 无法学习波斯语

我正在使用使用 KenLM 生成的语言模型从头开始（没有检查点）训练 DeepSpeech，如其文档中所述。该数据集是波斯语的通用语音数据集。

我的配置如下：

批量大小 = 2（由于 cuda OOM）
学习率 = 0.0001
编号。神经元 = 2048
编号。纪元 = 50
训练集大小 = 7500
测试和开发集大小 = 5000
第 1 层到第 5 层的 dropout = 0.2（也试验了 0.4，结果相同）

训练和验证损失在训练过程中减少，但经过几个时期，验证损失不再减少。train loss 约为 18，val loss 约为 40。

在过程结束时，预测都是空字符串。任何想法如何改进模型？

python tensorflow speech-recognition farsi mozilla-deepspeech

2021-05-01T14:45:27.240

0 投票

1 回答

217 浏览

python - 无法在 Windows 上训练 Deepspeech 模型

我试图在 Windows 上训练 Deepspeech 模型，因为我不能使用 Linux。但是，我无法训练我收到错误

python speech-recognition training-data mozilla-deepspeech

2021-05-17T09:58:40.953

0 投票

0 回答

51 浏览

django - 如何将大量音频文件传递到 Mozilla DeepSpeech Web 套接字？

当进行现场演讲时，我想将其分成一小块 mp3 文件并将其发送到 Mozilla DeepSpeech WebSocket 进行转录

（使用设备麦克风进行讲话）

django speech-recognition mozilla-deepspeech

2021-05-17T18:34:10.587

0 投票

1 回答

124 浏览

mozilla-deepspeech - 在 Google colab 上训练 deepspeech 需要遵循哪些步骤？

为了使用 Colab 训练模型，我们需要遵循哪些步骤 (A - Z)？如果我需要根据我的声音/我们国家的口音对其进行微调，如何准备我们自己的数据集？

mozilla-deepspeech

2021-05-21T08:43:47.413

0 投票

1 回答

241 浏览

python - 当我尝试在 google colab 上训练 DeepSpeech 模型时，我收到一条错误消息，指出不支持 .whl 文件

我使用的命令

这给了我一个错误

错误：ds_ctcdecoder-0.9.3-cp36-cp36m-manylinux1_x86_64.whl 不是该平台支持的滚轮。

我该如何解决这个问题？

python mozilla-deepspeech

2021-05-24T11:58:25.280

0 投票

1 回答

821 浏览

python - 在安装 deepspeech 环境期间，tensorflow 依赖项不断给我 colab 中的错误

当我在 Google Colab 上运行以下命令时

出错了

当我将 gast 版本 0.2.2 更新到 0.3.2 时，它说它再次需要 gast 版本 0.2.2，当我从 gast 版本 0.3.2 降级到 0.2.2 时，它说它再次需要 gast 版本 0.2.2（副-反之亦然）

python tensorflow google-colaboratory mozilla-deepspeech

2021-05-25T17:29:18.220

0 投票

1 回答

134 浏览

python - 如何转录录音以进行语音识别

下载并上传了mozilla deepepspeech相关的文件后，我开始使用google colab。我正在使用 mozilla/deepspeech 进行语音识别。下面显示的代码用于录制我的音频。录制音频后，我想使用函数/方法将录音转录为文本。一切都编译了，但文本没有正确输出。我的代码中有什么想法吗？

python ffmpeg speech-recognition speech-to-text mozilla-deepspeech

2021-05-26T16:52:08.477

1 2 3 4 5 6 7 8 9 10

问题标签 [mozilla-deepspeech]

Reference