问题标签 [mozilla-deepspeech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
435 浏览

python - 我的 CTC 损失模型的损失停滞,然后只输出空白字符

我正在尝试使用 CTC loss 在 keras 中实现百度的 DeepSpeech1,我的代码如下:

这都是非常标准的,但是在训练期间,我的模型通常会达到 100 到 200 之间的损失(从 >1000)然后停止改进,当我测试它时(删除 lambda 层以获取转录输出),它只输出空白字符。

我的理论是,它训练只输出空白字符,因为这比随机字符的损失更低,但随后会卡在那里的局部最小值,实际上并没有学会转录音频。

有人知道有什么技巧可以解决这个问题吗?

0 投票
1 回答
756 浏览

tensorflow - ValueError:记分器初始化失败,错误代码为 1

我是张量流的新手。我正在研究 deepspeech 项目https://github.com/mozilla/DeepSpeech,但是当我运行 evauate.py 时,出现错误:

ValueError:记分器初始化失败,错误代码为 1

详情如下。谁能帮我解决这个问题,谢谢!

堆栈信息:</p>

0 投票
1 回答
787 浏览

tensorflow - 将 Mozilla DeepSpeech 模型转换为在 tensorflow.js 环境中使用

我一直在尝试在 ml5.js soundClassifier 层中转换 Mozilla Deepspeech 训练模型以用于 tensorflow.js。我的理解是 Mozilla DeepSpeech 使用 TensorFlow。我一直在尝试遵循此处找到的提示:

https://www.tensorflow.org/js/tutorials/conversion/import_saved_model

https://www.tensorflow.org/js/guide/conversion

tensorflowjs_converter --help

我从这里下载了 DeepSpeech 模型:

https://github.com/mozilla/DeepSpeech/releases/download/v0.6.1/deepspeech-0.6.1-models.tar.gz

并且解压后发现如下文件:

lm.binary output_graph.pb output_graph.pbmm output_graph.tflite trie

我试图运行以下命令:

tensorflowjs_converter --output_format=tfjs_graph_model --saved_model_tags=serve deep/ tensorflow.js/

以及进行转换的变体。 tensorflow.js/是我创建deep/的目录,是包含 DeepSpeech 模型文件的目录(上面列出了。)

我得到错误:

SavedModel file does not exist at: deep/saved_model.pb/{saved_model.pbtxt|saved_model.pb}

我重命名output_graph.pbsaved_model.pb.

首先,我想知道 DeepSpeech 模型是否与 tensorflowjs_converter 兼容,如果是,我缺少什么才能让这个东西正常工作。

0 投票
1 回答
607 浏览

python-3.x - 在 ubuntu 服务器中安装 deepspeech 时出错

当我收到此错误时,我实际上是在尝试将 deepspeech 安装到带有 pip3 和 python 3.6.9 的树莓派 4 中:

使用时

任何想法?非常感谢你。

0 投票
0 回答
277 浏览

raspberry-pi - 无法在 Raspberry Pi 4 Virtualbox 上安装 DeepSpeech

尝试通过安装 DeepSpeechpip3 install deepspeech并得到了这个:

输出cat /etc/os-release

输出uname -a

任何想法?还尝试了特定的 deepspeech 版本,我得到了同样的错误。

0 投票
0 回答
128 浏览

java - Deepspeech java.lang.UnsatisfiedLinkError:/usr/lib/libdeepspeech-jni.so:liblog.so:错误的 ELF 类:ELFCLASS32

我尝试运行 Mozilla deepspeech 的实时转录,但我遇到了一些问题。这是类代码:

对不起,我是新来的。所以我在 /usr/lib 中放了两个 .so 文件,名为 libdeepspeech.so 和 libdeepspeech-jni.so。然后我得到了错误,没有liblog.so。所以我也把这个来自 android-ndk 的文件放在 /usr/lib 中。但这是我的问题:我在 /usr/lib 中做了 32 位 liblog.so,所以出现以下错误:

所以我想我必须把64位的liblog.so放在/usr/lib中,但是他的错误发生了:

是的,.so 文件和 android-ndk 一起在 /usr/lib 中。有人知道如何解决这个问题吗?我也可以使用全新的代码,但它必须是在说话期间进行的实时转录。类似于 aws 或 google 的 live-transcribe-speech-engine 之类的东西。我希望你能帮帮我!

祝你有美好的一天,对不起我的英语不好!

0 投票
1 回答
1195 浏览

python - 如何使用 librosa 将 .ogg opus 解码为 int16 NumPy 数组?

我正在尝试做的事情

我正在尝试使用 Mozilla 的语音到文本引擎deepspeech转录 Telegram 音频消息。

*.wav在 16 位 16khz 中使用完美无瑕。

我想添加*.oggopus 支持,因为 Telegram 使用这种格式作为它的音频消息。

到目前为止我尝试过的

到目前为止,我已经尝试过pyoggsoundfile ,但没有成功。

Soundfile 可能完全无法读取 opus 格式,并且 pyogg 在没有 conda 的情况下安装起来很痛苦。我有非常奇怪的时刻,它真的让 python 崩溃了。

现在,我正在尝试 librosa,结果喜忧参半。

Deepspeech 真的很喜欢np.int16model.sttWithMetadata本质上是对转录员的呼吁。

现在,它确实转录了一些东西,但与我在音频信息中所说的内容相去甚远。

0 投票
2 回答
1772 浏览

python - DeepSpeech 安装错误:“ImportError:DLL 加载失败:找不到指定的模块。”

我正在尝试使用 Mozilla DeepSpeech 构建语音到文本的算法,但我在安装软件包时遇到了问题。

首先,我在 Anaconda 中创建了一个新的虚拟环境,并在 Anaconda Powershell 中使用命令deepspeech-venv安装了最新版本的deepspeech软件包(v0.8.1)。pippip install deepspeech --upgrade

接下来,我使用命令pbmm和.tflitewget https://github.com/mozilla/DeepSpeech/releases/download/v0.8.1/deepspeech-0.8.1-models.pbmmwget https://github.com/mozilla/DeepSpeech/releases/download/v0.8.1/deepspeech-0.8.1-models.tflite

最后,我想检查并确保所有东西都安装正确,所以我输入deepspeech -h了命令行,它产生了以下错误语句:

据我了解,这意味着我缺少对deepspeech库的一些依赖项;但是,我不太确定需要安装哪些额外的 DLL,甚至不确定如何进行该过程。(当然,除非问题出在我的安装过程中,我只需要添加另一个库。)

注意:我在 Windows 10 64 位系统上运行 Python v3.7.7。

0 投票
1 回答
88 浏览

node.js - 使用 node js 在 deepspeech 中安装另一种语言

我正在尝试在我的项目中使用 mozilla-deepspeech 来生成文本到语音。我如何将它用于英语以外的其他语言?我想转换成印度尼西亚语。

注意:我在 Windows 上使用 NodeJS 作为基础项目。

感谢您的解决方案

0 投票
1 回答
114 浏览

android - DeepSpeechDemo 应用程序可与 Gradle cli 一起使用,但在使用 Android Studio 构建时会崩溃

android-mic-streaming 演示使用./gradlew installDebug 现成可用,但是当 Android Studio 中的播放按钮用于编译和安装完全相同的项目时,它在点击记录后崩溃并出现以下情况:

该问题似乎与使用 Android Studio 时未包含 libdeepspeech-jni.so 有关。我对 Android 开发完全陌生(我正在构建一个 Mozilla-STT React Native 模块并且只支持 iOS 是没用的)所以这特别令人困惑。

谢谢!

编辑

经过数小时的随机试验和错误:在 Android Studio 中将此选项从“默认 APK”更改为“应用程序包中的 APK”使演示开始工作 屏幕截图 2020-08-21 在 12 26 56 AM

但是,在我的示例应用程序上为 React Native 模块(它有一个依赖项 android 项目,最终依赖于实际的 libdeepspeech)做同样的事情并没有奏效。它在使用 x86_64 时开始工作,因此必须没有 libdeepspeech x86 二进制文件。