问题标签 [sphinx4]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
speech-recognition - 狮身人面像 4 损坏的 ARPA LM?
我有一个由kylm生成的 ARPA LM ,在运行 SPHINX 时,我得到了这个异常堆栈跟踪:
以下是 ARPA LM 的摘录:
PS:后面有一个新行\end\
异常表示 SPHINX 在最后一行遇到了意外的 EOF(它不应该在那里遇到 EOF 吗??)
请任何帮助!
voice-recognition - 为 Sphinx 创建语言模型的语料库必须有多大?
我想知道我需要处理多少文档或句子或单词才能获得一个好的领域语言模型并将其用于语音识别工具,如 CMU Sphinx。
speech-recognition - 使用 CMU 的 sphinx4 转录非数字数据
我最近正在使用 CMU 的 sphinx4 进行转录并最终强制对齐,即将音频与其转录对齐。
我找到了一个名为AutoCap的项目,它基本上完成了我想要开发的工作。所以,我安装了它,但它没有用。我尝试调整它,但我得到的只是不正确的时间戳。
所以,我想到了使用 sphinx4 并自己尝试一下。我使用 Sphinx 的 Transcriber.jar 文件成功转录了一个 wav 文件。但我无法让它适用于非数字数据的音频。自述文件页面指出“想要转录非数字数据的人应修改 config.xml 文件以使用正确的语法、语言模型和语言学家来执行此操作”。
那么,任何人都可以为我提供一些帮助:
- AutoCap
- 使用 Sphinx4 转录非数字数据
- 强制对齐
谢谢。
java - 使用 jdb 进行调试
试图找出我的方法Sphinx 4
(Java 中的 CMU 语音识别引擎),我尝试使用分发中包含的演示,将其更改为我想要的(演示的名称是Aligner
)。我遇到了问题,想jdb
从命令行使用它来调试。我阅读了此处给出的文档,但它是有限的,并没有解决我的问题,简而言之如下:
- 我这样调用
jdb
:(
jdb Aligner
项目主类的名称)。 像这样设置断点:
stop at Aligner:33
我得到的输出(在命令行上):
Deferring breakpoint Aligner:33.
It will be set after the class is loaded.在文件
demo.xml
(这是该项目的 makefile 等效项)
javac debug=true
中提到了。
我的问题:
1. 我应该从哪里调用jdb
?应该从整个 sphinx 目录中的任何位置调用它,还是应该从与它相同的目录调用它Aligner.java
?
2.我如何使用jdb
这个jar
项目?
PS:我知道我可以使用 Eclipse,但我不确定我知道该怎么做。我的首要任务是启动并运行它。
PPS:我是 Java 新手,对这门语言了解不多。我对命令行的偏好来自于我在命令行上的 C/C++ 编程背景。
非常欢迎任何帮助,
谢谢!
java - 如何将语音转换为文本?
我正在尝试使用 sphinx4 将我的 wav 文件转换为文本文件。是否可以识别不包含在语法文件中的单词?
speech-recognition - sphinx4 中的语音识别响应很差
目前我们正在研究使用 sphinx4 进行语音识别。我们正在努力为听写类型的应用程序实现良好的响应。输入是一个 wav 文件,我们希望将其转录。我查看了 Sphinx4 提供的 LatticeDemo 和 Transcribe 演示。当我使用相同的配置时,响应很差。我试图在配置文件中进行调整,但它根本无法识别这些单词。提供的转录器演示是针对数字的,我已经修改了配置文件以理解单词。但我不确定我是否遗漏了什么。我已附上配置文件。请提出任何可以改进的建议。
speech-recognition - 使用 htk 进行非数字识别
我一直在尝试将 HTk 与 sphinx4 结合用于语音识别应用程序。我将输入作为 wav 文件提供,并且我正在使用 sphinx 提供的“转录器演示”和“格子演示”,但是输出几乎是不可接受的。所以我决定用 Sphinx4 引入 HTK。但由此产生的输出似乎遥遥无期。我相信配置可以进一步调整..比我正在做的。我已经很好地搜索了是否有任何与使用 htk 和 sphinx4 相关的教程。除了这个惊人的博客(http://nsh.nexiwave.com/2009/09/using-htk-models-in-sphinx4.html)我还没有发现其他任何东西。任何人都可以在这里帮助我以提高我的识别准确性..
我的配置文件是狮身人面像如下:
任何帮助将非常感激
cmusphinx - CMU Sphinx的德语发音词典
我正在寻找德语发音词典,以便用于 PocketSphinx / CMU Sphinx。
字典看起来像这样:
找到这些英文版没问题,但我找不到德文版。你知道在哪里可以找到它吗?
speech-recognition - 使用 Sphinx4 的听写应用程序
我的要求与这个问题类似,因为这个问题现在已经 3 年了它发短信。
对于语音识别,我决定使用 sphinx4,我正在尝试增强 sphinx 提供的转录器演示。它很好,但这仅适用于特定的语法(用 .gram 和 .gxml 文件编写)。
编辑 为了能够与英语一起使用?我正在尝试使用 VoxForge_en_0.4 对其进行配置。我的 config.XML 文件如下所示:-
他们对我的配置有什么问题吗?请帮忙....