问题标签 [mozilla-deepspeech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
458 浏览

mozilla-deepspeech - DeepSpeech-Polyglot:Signals.SIGSEGV:11

我正在尝试生成 DeepSpeech-Polyglot-Project 的记分员。我已遵循文档的每一步,但是当我运行时:

我收到以下错误:

我正在使用这个文档:https ://gitlab.com/Jaco-Assistant/deepspeech-polyglot

我感谢每一个提示。

0 投票
2 回答
350 浏览

python - python Deepspeech TypeError: __init__() 接受 2 个位置参数,但给出了 3 个

我正在尝试实现 deepspeech,作为实现的一部分,我正在尝试运行以下代码。我已经安装python3deepspeech-0.9.3

运行以下代码时,我收到错误消息line 17, in <module> model = deepspeech.Model(MODEL_FILE_PATH, BEAM_WIDTH) TypeError: __init__() takes 2 positional arguments but 3 were given

0 投票
1 回答
4507 浏览

audio - 如何开始在 Ubuntu 20.04 上使用 Mozilla TTS 训练自定义语音模型?

我想使用我录制的音频样本在 Mozilla TTS 中创建自定义语音,但不知道如何开始。Mozilla TTS 项目有文档和教程,但我无法将这些部分组合在一起——似乎缺少一些基本信息,刚开始的人需要知道才能开始。

我有一些问题:

  1. 我看到 Mozilla TTS 有一个 Docker 映像,但它的文档涵盖了创建语音并且没有提及培训。我可以使用 Docker 映像进行培训吗?
  2. 如果我不能使用 Docker 映像进行训练,我如何获得在我的 Python 3 系统上运行的 Mozilla TTS 的功能副本?我尝试按照项目提供的命令进行操作,但出现依赖错误、版本冲突或关于没有足够权限安装软件包的错误。
  3. 为了训练模型,我需要什么信息?我需要什么音频格式?我看到我需要一个metadata.csv文件——我需要在该文件中放入什么?我在配置文件中自定义了什么?
  4. 大多数配置都引用了一个scale_stats.npy文件——我如何生成这个文件?
  5. 我如何进行培训?
0 投票
0 回答
85 浏览

python - 虽然我放了字母路径,但我仍然收到字母应该存在并且可读的错误

我按照此链接创建了一个模型,而不是英语 https://discourse.mozilla.org/t/tutorial-how-i-trained-a-specific-french-model-to-control-my-robot/ 22830 我按照这些步骤操作,但问题是我收到以下错误:

我的 sh 文件如下:

你有什么想法我能做什么?

0 投票
1 回答
98 浏览

python - 训练后的极大损失和错误的成绩单

我目前正在为我的语言实施 DeepSpeech。我有 2 个目录:训练和测试。Train 大约有 15000 个 wav,测试大约 3000 个。我面临的问题是在训练期间我有很大的损失,而对于测试部分的损失是巨大的。在此处输入图像描述

不幸的是,这些词没有得到应有的认可。这是我的 .sh 文件 在此处输入图像描述

你能给我一些关于我应该做什么的提示吗?谢谢!

0 投票
1 回答
372 浏览

node.js - 音频和 DeepSpeech

我为 wav 文件测试了 DeepSpeech,它工作得很好。当我尝试使用无法识别单个单词的音频流时,我的深度语音问题就出现了。音频流是 PCM 48khz 立体声签名的 16 位小端序。我一直在尝试将流转换为其他格式、sampleRate 和频道,但完全没有成功。我在 nodejs 上使用 DeepSpeech

0 投票
1 回答
199 浏览

machine-learning - 看起来不像基于字符的(Bytes Are All You Need)模型(DeepSpeech)

0 投票
1 回答
151 浏览

command - 想要使用 Octave/Matlab 从终端激活虚拟环境

我想使用 Linux 执行 bash 命令来激活带有 Octave 的虚拟环境。我真正想做的是使用 Octave/Matlab 运行 DeepSpeech。

我要使用的命令是 source $HOME/tmp/deepspeech-venv/bin/activate

我自己尝试的代码行是system("source $HOME/tmp/deepspeech-venv/bin/activate")

我得到的输出是sh: 1: source: not found

我在帖子上看到了这个答案并尝试了这个命令setenv('PATH', ['/source $HOME/tmp/deepspeech-venv/bin/activate', pathsep, getenv('PATH')]),但没有任何帮助,它返回了同样的错误。

0 投票
0 回答
37 浏览

python - 无需线程即可同时运行 Kivy 和 DeepSpeech

我正在尝试使用 Kivy 构建一个简单的语音转录应用程序。这个想法是使用 DeepSpeech麦克风示例转录我的声音,并用于更新 Kivy 应用程序中的文本标签。

我遇到的问题是在 Kivy 应用程序旁边运行 DeepSpeech 模型。两者似乎都有自己的循环,所以先运行的就是唯一运行的。我想知道是否有一种方法可以在不使用线程的情况下同时运行(为了简单和性能)。

这是简单的 Kivy 应用程序:

0 投票
1 回答
48 浏览

rust - 在 Rust 中使用 portaudio 从 deepspeech 获得空白结果

我正在尝试使用带有 deepspeech 的 portaudio(都使用 Rust 绑定)来创建语音识别程序。我在记录缓冲区时可以看到数据,但是在尝试使用时intermediate_decode,我总是得到空白结果。我假设我要么错误地配置了音频,要么错误地设置了模型。我花了很多时间才达到这一点(处理音频相当新),任何帮助将不胜感激!

这是完整的源代码: