问题标签 [mozilla-deepspeech]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 通过半转录访谈训练离线语音识别软件
我搜索了一些语音识别软件,它可以离线工作并允许我用半成品的成绩单训练它。Mozilla 的 deepspeech 似乎可以胜任这项工作。我必须转录的采访问题是有两种声音和不标准的英语口音。有没有人有任何使用 DeepSpeech 的经验来做到这一点并且可以指导我学习教程?或者你会推荐其他软件(最好是离线和开源的)?
python - 为什么这个 DeepSpeech python 程序的结果与我从命令行界面得到的结果不同?
我正在学习 Mozilla 的 DeepSpeech Speech-To-Text 引擎。我让命令行界面正常工作没有问题,但 Python 界面的行为似乎有所不同。当我运行时:
在使用 sox 生成的 16 位单声道 48000 Hz .wav 文件上,我得到以下信息:
当我的意思是“香蕉”时减去“benana”,它似乎工作正常,以及我测试过的其他文件。当我尝试使用来自本教程的以下代码时,问题就来了:
我使用以下命令运行代码:
根据具体文件,我得到不同的四字符响应。我从这个特定文件中得到的响应是'hahm'
,但'hmhm'
也' eo'
很常见。将参数更改为模型(25、9 和 500)似乎不会改变输出。
mozilla-deepspeech - 一个像样的 Mozilla 深度语音训练通常需要多少个 epoch?
我想知道,您通常运行多少个 epoch 来训练 mozilla 深度语音,并使用其默认架构。(与 GitHub 版本相比没有变化)。要运行的合适的 epoch 数量是多少,特别是考虑到可用基础架构上的每个 epoch 都需要相当多的时间?((Tesla K80 单 GPU))
另一方面,如果提前停止(默认标准),这个数字是多少?感谢您的建议/建议。
训练数据:简历
tensorflow - 当我安装了 0.12 时,为什么 Mozilla Deepspeech 使用 Tensorflow 0.11?
我将 Anaconda3 与 python 3.6 一起使用,并使用 pip install tensorflow deepspeech。
当我运行以下命令时,出现错误:
deepspeech --model models/output_graph.pb --alphabet models/alphabet.txt --audio voice.wav
请注意,我使用的是从使用此命令的说明中获得的预训练模型:
wget -O - https://github.com/mozilla/DeepSpeech/releases/download/v0.3.0/deepspeech-0.3.0-models.tar.gz | 焦油 xvfz -
TensorFlow v1.11.0 来自哪里?pip freeze 将 Tensorflow 显示为 v0.12.0?我该如何解决这个问题?
dataset - 使用带有多个 aeneas 文本文件的 Aeneas 强制对齐
我们已经启动了一个项目来创建与 DeepSpeech 一起使用的土耳其语语音识别数据集。
我们完成了电子书的预处理任务。但是我们无法完成与埃涅阿斯的强制对齐过程。
根据其强制对齐教程,您需要一个文本文件及其录制的音频文件。在对电子书进行预处理时,我们创建了 430 个文本文件,这些文本文件针对 aeneas 格式进行了编辑和清理(使用 nltk 库分为段落和句子)。
但是,在处理我们创建的任务对象并创建其输出文件(Json 文件)时,我们无法合并输出文件。对于每个 Aeneas 文件,它都从音频文件的开头开始。
看来我们需要将音频文件拆分为 430 个部分,但这不是一个简单的过程。
我尝试将 Json 文件与以下内容合并:
但它并没有奏效,因为在强制对齐过程中,aeneas 从音频文件的开头开始为每个 aeneas 文本文件。
是否可以创建一个包含所有 430 个 aeneas 文本文件的任务对象,并将它们附加到一个输出文件(Json 文件)中,考虑到它们的时间(它们的秒数)也使用一个音频文件?
我们的任务对象:
顺便说一句,我们正在使用 python 3 开发 Google Colab。
python-3.x - Pip 无法从 Windows 上的版本中找到 deepspeech / deepspeech-gpu
我正在尝试在 Windows 上从 Pypi 安装 deepspeech,我一直遇到“无法从版本中找到所需的包”的问题,但我的 pip 是最新的(19.0.1)。
我已经尝试过这里给出的一些解决方案:https ://discourse.mozilla.org/t/pip-install-deepspeech-doesnt-find-a-valid-deepspeech-when-mac-osx-10-11-is-used- and-not-mac-osx-10-12/22788
在这里:https ://github.com/mozilla/DeepSpeech/issues/1519
但这些解决方案都不是具体的或特定于 Windows 操作系统的。
“pip install --verbose deepspeech-gpu”给了我以下输出
似乎某些 CONFIG 变量未设置,但不完全确定如何纠正它们。还有来自 Pypi 的教程:
https://pypi.org/project/deepspeech/#using-the-python-package
清楚地表明他们有这个包。
任何帮助深表感谢。
谢谢
python - 我可以在 buildroot 中安装 wheel 包吗?
我想在我的嵌入式设备上安装 deepspeech(不用担心电源要求,我打算稍后处理)。
但是我在安装它时失败了几次。对于我所看到的,这是因为此软件包只有轮文件可用,而我的设备上没有 python 轮。以下是可用的软件包:
所以我的问题是:1)对于嵌入式设备,这些包中哪个是最好的?2)如何在我的设备上安装轮子?像任何其他 python 包一样 3) 我是否必须更改 .mk 文件或 config.in 中的任何内容?这是文件:
.mk:
配置文件:
python - 使用请求将 cURL 命令转换为 python
我正在使用 deepspeech 和 deespeech-server。我能够发送 cURL 命令:
这给了我正确的语音到文本翻译“现在是什么时候”。
我现在正在尝试使用 python 脚本来实现相同的结果。我的代码是:
我得到以下输出:
在我的服务器上,我得到:
有人对我如何解决这个问题有想法吗?
python - Alpine 上的 Mozilla DeepSpeech
我正在尝试在我的 Alpine 容器中安装 DeepSpeech,虽然我似乎满足了文档中的所有要求,但我得到“与此 Python 错误不兼容”。
这是我跑步时的日志pip install --verbose deepspeech
我似乎这是 Windows 环境中的一个常见问题,但这是一个 Alpine 基础映像。我错过了什么?
deep-learning - 如何解决 Docker Build 中的 bazel 构建错误?
在 docker build 期间,此错误不断出现。
尝试了各种代码技术。
构建应该是成功的。