问题标签 [mozilla-deepspeech]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 我的 CTC 损失模型的损失停滞,然后只输出空白字符
我正在尝试使用 CTC loss 在 keras 中实现百度的 DeepSpeech1,我的代码如下:
这都是非常标准的,但是在训练期间,我的模型通常会达到 100 到 200 之间的损失(从 >1000)然后停止改进,当我测试它时(删除 lambda 层以获取转录输出),它只输出空白字符。
我的理论是,它训练只输出空白字符,因为这比随机字符的损失更低,但随后会卡在那里的局部最小值,实际上并没有学会转录音频。
有人知道有什么技巧可以解决这个问题吗?
tensorflow - ValueError:记分器初始化失败,错误代码为 1
我是张量流的新手。我正在研究 deepspeech 项目https://github.com/mozilla/DeepSpeech,但是当我运行 evauate.py 时,出现错误:
ValueError:记分器初始化失败,错误代码为 1
详情如下。谁能帮我解决这个问题,谢谢!
堆栈信息:</p>
tensorflow - 将 Mozilla DeepSpeech 模型转换为在 tensorflow.js 环境中使用
我一直在尝试在 ml5.js soundClassifier 层中转换 Mozilla Deepspeech 训练模型以用于 tensorflow.js。我的理解是 Mozilla DeepSpeech 使用 TensorFlow。我一直在尝试遵循此处找到的提示:
https://www.tensorflow.org/js/tutorials/conversion/import_saved_model
https://www.tensorflow.org/js/guide/conversion
tensorflowjs_converter --help
我从这里下载了 DeepSpeech 模型:
https://github.com/mozilla/DeepSpeech/releases/download/v0.6.1/deepspeech-0.6.1-models.tar.gz
并且解压后发现如下文件:
lm.binary output_graph.pb output_graph.pbmm output_graph.tflite trie
我试图运行以下命令:
tensorflowjs_converter --output_format=tfjs_graph_model --saved_model_tags=serve deep/ tensorflow.js/
以及进行转换的变体。 tensorflow.js/
是我创建deep/
的目录,是包含 DeepSpeech 模型文件的目录(上面列出了。)
我得到错误:
SavedModel file does not exist at: deep/saved_model.pb/{saved_model.pbtxt|saved_model.pb}
我重命名output_graph.pb
为saved_model.pb
.
首先,我想知道 DeepSpeech 模型是否与 tensorflowjs_converter 兼容,如果是,我缺少什么才能让这个东西正常工作。
python-3.x - 在 ubuntu 服务器中安装 deepspeech 时出错
当我收到此错误时,我实际上是在尝试将 deepspeech 安装到带有 pip3 和 python 3.6.9 的树莓派 4 中:
使用时
任何想法?非常感谢你。
raspberry-pi - 无法在 Raspberry Pi 4 Virtualbox 上安装 DeepSpeech
尝试通过安装 DeepSpeechpip3 install deepspeech
并得到了这个:
输出cat /etc/os-release
:
输出uname -a
:
任何想法?还尝试了特定的 deepspeech 版本,我得到了同样的错误。
java - Deepspeech java.lang.UnsatisfiedLinkError:/usr/lib/libdeepspeech-jni.so:liblog.so:错误的 ELF 类:ELFCLASS32
我尝试运行 Mozilla deepspeech 的实时转录,但我遇到了一些问题。这是类代码:
对不起,我是新来的。所以我在 /usr/lib 中放了两个 .so 文件,名为 libdeepspeech.so 和 libdeepspeech-jni.so。然后我得到了错误,没有liblog.so。所以我也把这个来自 android-ndk 的文件放在 /usr/lib 中。但这是我的问题:我在 /usr/lib 中做了 32 位 liblog.so,所以出现以下错误:
所以我想我必须把64位的liblog.so放在/usr/lib中,但是他的错误发生了:
是的,.so 文件和 android-ndk 一起在 /usr/lib 中。有人知道如何解决这个问题吗?我也可以使用全新的代码,但它必须是在说话期间进行的实时转录。类似于 aws 或 google 的 live-transcribe-speech-engine 之类的东西。我希望你能帮帮我!
祝你有美好的一天,对不起我的英语不好!
python - 如何使用 librosa 将 .ogg opus 解码为 int16 NumPy 数组?
我正在尝试做的事情
我正在尝试使用 Mozilla 的语音到文本引擎deepspeech转录 Telegram 音频消息。
*.wav
在 16 位 16khz 中使用完美无瑕。
我想添加*.ogg
opus 支持,因为 Telegram 使用这种格式作为它的音频消息。
到目前为止我尝试过的
到目前为止,我已经尝试过pyogg和soundfile ,但没有成功。
Soundfile 可能完全无法读取 opus 格式,并且 pyogg 在没有 conda 的情况下安装起来很痛苦。我有非常奇怪的时刻,它真的让 python 崩溃了。
现在,我正在尝试 librosa,结果喜忧参半。
Deepspeech 真的很喜欢np.int16
。model.sttWithMetadata
本质上是对转录员的呼吁。
现在,它确实转录了一些东西,但与我在音频信息中所说的内容相去甚远。
python - DeepSpeech 安装错误:“ImportError:DLL 加载失败:找不到指定的模块。”
我正在尝试使用 Mozilla DeepSpeech 构建语音到文本的算法,但我在安装软件包时遇到了问题。
首先,我在 Anaconda 中创建了一个新的虚拟环境,并在 Anaconda Powershell 中使用命令deepspeech-venv
安装了最新版本的deepspeech
软件包(v0.8.1)。pip
pip install deepspeech --upgrade
接下来,我使用命令pbmm
和.tflite
wget https://github.com/mozilla/DeepSpeech/releases/download/v0.8.1/deepspeech-0.8.1-models.pbmm
wget https://github.com/mozilla/DeepSpeech/releases/download/v0.8.1/deepspeech-0.8.1-models.tflite
最后,我想检查并确保所有东西都安装正确,所以我输入deepspeech -h
了命令行,它产生了以下错误语句:
据我了解,这意味着我缺少对deepspeech
库的一些依赖项;但是,我不太确定需要安装哪些额外的 DLL,甚至不确定如何进行该过程。(当然,除非问题出在我的安装过程中,我只需要添加另一个库。)
注意:我在 Windows 10 64 位系统上运行 Python v3.7.7。
node.js - 使用 node js 在 deepspeech 中安装另一种语言
我正在尝试在我的项目中使用 mozilla-deepspeech 来生成文本到语音。我如何将它用于英语以外的其他语言?我想转换成印度尼西亚语。
注意:我在 Windows 上使用 NodeJS 作为基础项目。
感谢您的解决方案
android - DeepSpeechDemo 应用程序可与 Gradle cli 一起使用,但在使用 Android Studio 构建时会崩溃
android-mic-streaming 演示使用./gradlew installDebug 现成可用,但是当 Android Studio 中的播放按钮用于编译和安装完全相同的项目时,它在点击记录后崩溃并出现以下情况:
该问题似乎与使用 Android Studio 时未包含 libdeepspeech-jni.so 有关。我对 Android 开发完全陌生(我正在构建一个 Mozilla-STT React Native 模块并且只支持 iOS 是没用的)所以这特别令人困惑。
谢谢!
编辑:
经过数小时的随机试验和错误:在 Android Studio 中将此选项从“默认 APK”更改为“应用程序包中的 APK”使演示开始工作
但是,在我的示例应用程序上为 React Native 模块(它有一个依赖项 android 项目,最终依赖于实际的 libdeepspeech)做同样的事情并没有奏效。它在使用 x86_64 时开始工作,因此必须没有 libdeepspeech x86 二进制文件。