问题标签 [mozilla-deepspeech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
48 浏览

python - 通过半转录访谈训练离线语音识别软件

我搜索了一些语音识别软件,它可以离线工作并允许我用半成品的成绩单训练它。Mozilla 的 deepspeech 似乎可以胜任这项工作。我必须转录的采访问题是有两种声音和不标准的英语口音。有没有人有任何使用 DeepSpeech 的经验来做到这一点并且可以指导我学习教程?或者你会推荐其他软件(最好是离线和开源的)?

0 投票
2 回答
1181 浏览

python - 为什么这个 DeepSpeech python 程序的结果与我从命令行界面得到的结果不同?

我正在学习 Mozilla 的 DeepSpeech Speech-To-Text 引擎。我让命令行界面正常工作没有问题,但 Python 界面的行为似乎有所不同。当我运行时:

在使用 sox 生成的 16 位单声道 48000 Hz .wav 文件上,我得到以下信息:

当我的意思是“香蕉”时减去“benana”,它似乎工作正常,以及我测试过的其他文件。当我尝试使用来自本教程的以下代码时,问题就来了:

我使用以下命令运行代码:

根据具体文件,我得到不同的四字符响应。我从这个特定文件中得到的响应是'hahm',但'hmhm'' eo'很常见。将参数更改为模型(25、9 和 500)似乎不会改变输出。

0 投票
1 回答
756 浏览

mozilla-deepspeech - 一个像样的 Mozilla 深度语音训练通常需要多少个 epoch?

我想知道,您通常运行多少个 epoch 来训练 mozilla 深度语音,并使用其默认架构。(与 GitHub 版本相比没有变化)。要运行的合适的 epoch 数量是多少,特别是考虑到可用基础架构上的每个 epoch 都需要相当多的时间?((Tesla K80 单 GPU))

另一方面,如果提前停止(默认标准),这个数字是多少?感谢您的建议/建议。

训练数据:简历

0 投票
1 回答
312 浏览

tensorflow - 当我安装了 0.12 时,为什么 Mozilla Deepspeech 使用 Tensorflow 0.11?

我将 Anaconda3 与 python 3.6 一起使用,并使用 pip install tensorflow deepspeech。

当我运行以下命令时,出现错误:

deepspeech --model models/output_graph.pb --alphabet models/alphabet.txt --audio voice.wav

请注意,我使用的是从使用此命令的说明中获得的预训练模型:

wget -O - https://github.com/mozilla/DeepSpeech/releases/download/v0.3.0/deepspeech-0.3.0-models.tar.gz | 焦油 xvfz -

TensorFlow v1.11.0 来自哪里?pip freeze 将 Tensorflow 显示为 v0.12.0?我该如何解决这个问题?

0 投票
1 回答
453 浏览

dataset - 使用带有多个 aeneas 文本文件的 Aeneas 强制对齐

我们已经启动了一个项目来创建与 DeepSpeech 一起使用的土耳其语语音识别数据集。

我们完成了电子书的预处理任务。但是我们无法完成与埃涅阿斯的强制对齐过程。

根据其强制对齐教程,您需要一个文本文件及其录制的音频文件。在对电子书进行预处理时,我们创建了 430 个文本文件,这些文本文件针对 aeneas 格式进行了编辑和清理(使用 nltk 库分为段落和句子)。

但是,在处理我们创建的任务对象并创建其输出文件(Json 文件)时,我们无法合并输出文件。对于每个 Aeneas 文件,它都从音频文件的开头开始。

看来我们需要将音频文件拆分为 430 个部分,但这不是一个简单的过程。

我尝试将 Json 文件与以下内容合并:

但它并没有奏效,因为在强制对齐过程中,aeneas 从音频文件的开头开始为每个 aeneas 文本文件。

是否可以创建一个包含所有 430 个 aeneas 文本文件的任务对象,并将它们附加到一个输出文件(Json 文件)中,考虑到它们的时间(它们的秒数)也使用一个音频文件?

我们的任务对象:

顺便说一句,我们正在使用 python 3 开发 Google Colab。

0 投票
1 回答
677 浏览

python-3.x - Pip 无法从 Windows 上的版本中找到 deepspeech / deepspeech-gpu

我正在尝试在 Windows 上从 Pypi 安装 deepspeech,我一直遇到“无法从版本中找到所需的包”的问题,但我的 pip 是最新的(19.0.1)。

我已经尝试过这里给出的一些解决方案:https ://discourse.mozilla.org/t/pip-install-deepspeech-doesnt-find-a-valid-deepspeech-when-mac-osx-10-11-is-used- and-not-mac-osx-10-12/22788

在这里:https ://github.com/mozilla/DeepSpeech/issues/1519

但这些解决方案都不是具体的或特定于 Windows 操作系统的。

“pip install --verbose deepspeech-gpu”给了我以下输出

似乎某些 CONFIG 变量未设置,但不完全确定如何纠正它们。还有来自 Pypi 的教程:

https://pypi.org/project/deepspeech/#using-the-python-package

清楚地表明他们有这个包。

任何帮助深表感谢。

谢谢

0 投票
1 回答
542 浏览

python - 我可以在 buildroot 中安装 wheel 包吗?

我想在我的嵌入式设备上安装 deepspeech(不用担心电源要求,我打算稍后处理)。

但是我在安装它时失败了几次。对于我所看到的,这是因为此软件包只有轮文件可用,而我的设备上没有 python 轮。以下是可用的软件包:

可用的包

所以我的问题是:1)对于嵌入式设备,这些包中哪个是最好的?2)如何在我的设备上安装轮子?像任何其他 python 包一样 3) 我是否必须更改 .mk 文件或 config.in 中的任何内容?这是文件:

.mk:

配置文件:

0 投票
1 回答
64 浏览

python - 使用请求将 cURL 命令转换为 python

我正在使用 deepspeech 和 deespeech-server。我能够发送 cURL 命令:

这给了我正确的语音到文本翻译“现在是什么时候”。

我现在正在尝试使用 python 脚本来实现相同的结果。我的代码是:

我得到以下输出:

在我的服务器上,我得到:

有人对我如何解决这个问题有想法吗?

0 投票
2 回答
285 浏览

python - Alpine 上的 Mozilla DeepSpeech

我正在尝试在我的 Alpine 容器中安装 DeepSpeech,虽然我似乎满足了文档中的所有要求,但我得到“与此 Python 错误不兼容”。

这是我跑步时的日志pip install --verbose deepspeech

我似乎这是 Windows 环境中的一个常见问题,但这是一个 Alpine 基础映像。我错过了什么?

0 投票
0 回答
162 浏览

deep-learning - 如何解决 Docker Build 中的 bazel 构建错误?

在 docker build 期间,此错误不断出现。

尝试了各种代码技术。

构建应该是成功的。