问题标签 [mozilla-deepspeech]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 无法使用子进程使用 deepspeech 转录
我正在尝试使用 Mozilla Deepspeech 转录(语音到文本),在 python 子进程中使用下面的代码来执行这个命令这个命令在终端中工作并且也在 python 子进程中执行并且没有错误,但是当 result.txt 生成时它是空白的。
非常感谢任何帮助。谢谢
python - Deepspeech 无法识别从 PC 麦克风录制的输入音频文件
尝试使用 DeepSpeech 将音频转换为文本,它适用于来自 Mozilla/DeepSpeech 的默认音频文件。但是当我尝试从 PC 的麦克风录制音频并将其馈送到模型时,它会引发错误('wave.Error: unknown format: 3')。我正在使用 sounddevice 库来录制音频。我试图改变采样率和通道数,但没有奏效。我知道错误是由“wave”函数引起的,但我无法弄清楚。请帮忙
我的代码:
错误:
python - 试图让 DeepSpeech 工作。即使我 pip 安装了 SoX 也找不到?
我得到的错误是:
FileNotFoundError: [Errno 2] SoX not found, use 16000hz files or install it: The system cannot find the file specified
我的音频文件来自 mp4 视频文件,然后从 VLC 转换为 WAV 文件。默认采样率为 8000 Hz,DeepSpeech 似乎需要 16kHz 文件,因此需要 SoX 插件。
我运行 pip install SoX 和pip install --upgrade SoX
.
要求已经满足:SoX in e:\downloads\deep speech\lib\site-packages (1.4.1)
Requirement already compatible: numpy>=1.9.0 in e:\downloads\deep speech\lib\site-packages (from SoX) (1.21.4)
所以就在这里。然后我将 E:\Downloads\Deep Speech\Lib\site-packages 添加到 Windows 上的系统环境变量中,以防万一。一般来说,我是 Python 的新手,在这里被难住了。
有人可以帮我一把吗?
python - 调用 DeepSpeech 的 generate_lm.py 时子进程调用错误
我正在尝试使用 colab 中的 DeepSpeech 为语音到文本构建定制的记分器(语言模型)。调用 generate_lm.py 时出现此错误:
python - 如何将一个单元格的输出直接运行到下一个单元格并运行它?
我正在使用 deepspeech 预训练模型。我已经从 github 加载了模型和评分器,并在开头使用了 !wget 命令行。要在音频文件上执行模型并导出 txt 文件,我必须编写这样的行:
我有一个循环自动为我编写该行,但问题是我必须手动复制和粘贴输出(= 命令行)并在下一个单元格中运行它。有没有办法自动运行命令,因为我必须把我的代码放在一个自动脚本中?
我正在研究 GoogleColab。
python - 使用 deepspeech 转录时如何使用 GPU
我正在使用优秀的deepspeech包在 Python 中转录音频文件。这是我的快速实现:
podcast.wav
是一个约 20 分钟的音频文件。运行text = model.stt(data16)
需要 10 多分钟(我在 10 分钟后中断了该过程),考虑到 GPU 的可用性(我使用的是 Google Colab),这出乎意料地慢。我怀疑脚本没有使用 GPU。是否有上述代码的另一种实现来确保使用 GPU?我可以确认deepspeech-gpu
已安装。
python - 我无法在装有 Ubuntu 20.04 LTS 64 位的 Raspberry Pi 4 上安装 deepspeech
我目前正在努力使用 Ubuntu 20.04 LTS 在我的 Raspberry Pi 4 上安装 DeepSpeech。我将 pip 与以下命令一起使用:pip install deepspeech
,并且还在使用virtualenv创建的虚拟环境中。显示以下错误:
ERROR: Could not find a version that satisfies the requirement deepspeech (from versions: none) ERROR: No matching distribution found for deepspeech
我正在使用 python 3.8.10,甚至尝试使用 3.7 都没有成功。当我输入uname -a :
时,我的系统看起来像这样Linux ubuntu 5.4.0-1047-raspi #52-Ubuntu SMP PREEMPT Wed Nov 24 08:16:38 UTC 2021 aarch64 aarch64 aarch64 GNU/Linux
。
我四处寻找,找不到任何解决我目前面临的问题的方法。谢谢你的帮助。
python - Deepspeech 实时语音转文本
如何使用深度语音和麦克风对文本进行实时语音?
我尝试运行我在 GitHub 上找到的这个脚本,但是当我运行它并且我有一段时间没有说任何东西时,它开始打印随机文本。
我知道还有其他选择,但我发现的每个选择都是免费试用或立即付款。因此,如果有人可以帮助我使用 DeepSpeech,或者如果有人知道免费的替代方案,我将不胜感激