问题标签 [sphinx4]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1091 浏览

speech-to-text - 使用 Sphinx4 和 es_MX_broadcast_cont_2500

我目前致力于开发西班牙语 (MX) 简短采访(时长约 2 分钟)的音频转录器。我一直在网上冲浪,但找不到这个,也许太容易了:/。在运行 .jar 时,我收到此警告(我假设)来自 es_MX_broadcast...voxforge 包的 /etc/h4.dict 中所有带有重音符号的单词,并且根本没有转录或其他错误。

...

WARNING dictionary The dictionary is missing a phonetic transcription for the word 'kyrgyzst�'

'WARNING dictionary The dictionary is missing a phonetic transcription for the word 'explotaci�'

WARNING dictionary The dictionary is missing a phonetic transcription for the word 'inclu�'

...

我的线索是文本编码器可能存在一些配置问题,但也许我需要创建语言模型。我真的很想训练它,但首先我需要它工作。这是 config.xml 文件的 linguist/dictionary/language_model/acoustic_model 部分

-------- 这是新信息(2013 年 10 月 3 日)----------

谢谢,但这不是问题。该文件已经是 UTF8 并且我已经将 JAVA TOOLS OPTION 设置为 UTF8,还使用 ​​-Dfile.encoding 运行 .jar 并且任何更改,我得到相同的列表。这很奇怪,因为我试图弄清楚文件中是否还有另一个字典列表,但我一无所知。这真的很奇怪,因为 h4.dict 是大写的,警告是小写的,还有一些带有重音的单词没有出现在警告列表中。我试图用更少的单词保存另一个 .dict 文件,但它没有用,实际上警告中出现了更多的单词。

我不知道我没有像其他演示中使用的那样将 .jar 用于声学模型是否重要,或者是否与根本没有转录或其他错误的事实有关。

我真的希望任何人都可以帮助我弄清楚,同时我会更加努力。

非常感谢提前

0 投票
0 回答
1539 浏览

matlab - 从 MATLAB 和 SPhinx4 生成的 MFCC 文件是否不同?

我使用 MATLAb 将 .wav 文件转换为 .mfc 文件。我找到了两个 MATLAB 代码来做同样的事情。

http://www.ee.columbia.edu/~dpwe/resources/matlab/rastamat/

http://www.mathworks.in/matlabcentral/fileexchange/32849-htk-mfcc-matlab/content/mfcc/example.m

然而,两者都给出了不同的 MFCCS。其中一个是提供一个 20 行的 mfc 文件,另一个是 13 行。我猜有 13 个 MFCC 系数,那么 13 行是否代表 13 个系数?我还必须使用两个波形文件的 MFCC 来找出一个声音是如何在另一个文件中出现的。但结果并不正确。请帮忙。

0 投票
3 回答
665 浏览

java - 如何在 Eclipse 中为 Sphinx4 创建项目文件?

我从这里下载了Sphinx 4 beta版本 3 ,但是当我尝试导入 Eclipse 时,它​​说它的文件夹中没有有效的项目文件

如何为此创建有效的项目文件?

0 投票
0 回答
96 浏览

controls - 使用笔记本电脑的语音输入进行电机控制

我的目标是控制使用语音输入,例如“前进”和“后退”。我希望在编程部分使用 Sphinx 4 (JAVA)。另外我打算使用笔记本电脑来提供输入语音。我对语音识别研究完全陌生。所以有人可以指导我从哪里开始,并在 sphinx 4 中为我提供一个示例代码来捕获几个简单的单词。

0 投票
1 回答
276 浏览

speech-recognition - “回退到非递归分区” sphinx 4

我训练了我的声学模型,并在一个小数据(10 个越南语单词)上获得了可接受的准确率(85%)。但是当我将此模型集成到 Transcriber 示例(与 Sphinx 4 一起打包)并尝试转录上述 10 个单词中的一个单词时,我收到了一个“回退到非递归分区”列表。我需要它来输出一个单词。

是我的项目。

任何的想法?谢谢

0 投票
0 回答
1833 浏览

java - Sphinx4 - 搜索管理器资源分配失败

我正在使用 sphinx4 进行项目。我尝试运行应用程序 helloworld 但我不断收到以下错误

我检查了 jre 版本、路径、导入、jar,发现一切正常。我还为 build.xml 和 demo.xml 运行 ant build。我认为问题出在 helloworld.config.xml 中,但我无法弄清楚。这是 hello.config.xml 文件:

任何帮助为什么我仍然收到此消息?!我可以做哪些可能的修复/检查?!

0 投票
1 回答
237 浏览

java - 尽管库在类路径中,但找不到 Sphinx 类?

我下载了 sphinx4-1.0beta6-bin.zip并将其安装在我的 64 位 Ubuntu 12.04 LTS 上。我能够运行该HelloWorld示例。但是,当我创建自己的类并创建一个Configuration对象时,如下所示:

它被标记为错误。即使我在库中有适当的 jar 并且库在构建路径中, Eclipse也根本找不到该类。

以下是图书馆中的罐子:

  1. js.jar
  2. jsapi.jar
  3. sphinx4.jar
  4. tags.jar

那么,为什么我会收到这个错误?

0 投票
1 回答
42 浏览

voice-recognition - 此文件是否符合 Sphinx 培训的条件

我的 WAV在开头和结尾都有一些小的嗡嗡声。该文件是否适合 Sphinx 培训?如果是,我是否必须在转录文件中包含一些特殊字符?

感谢你并致以真诚的问候。

0 投票
0 回答
280 浏览

java - 多线程时的 Sphinx4 性能问题

我以 Sphinx4 HelloWorld 为例,制作了自己的语法文件,其中包含“什么是病毒”或“什么是应用软件”之类的句子,简单的 JSGF 内容,我确实分别标记了每个句子,如下所示:

没有 n-gram,因为我不完全理解它,我不确定它是否适用于这样一个简单的例子(或者我认为它不适用)。无论如何,代码只是 HelloWorld.java 的复制粘贴,并且识别效果很好,我会说它大约 90% 准确。

现在我把这段代码放到一个 Runnable 中,启动了一个新线程,突然间识别率非常可怕,大约为 10%(十分之一是正确的)。

显然,我直接在应用程序中使用我的麦克风(内置笔记本电脑麦克风)捕捉声音,并且我看到了一些建议,即声音应该根据我使用的字典(这是标准 WSJ_8gau_13dCep_16k_40mel_130Hz_6800Hz)重新采样,所以我的第一个问题是:内置的mic.startRecording() 方法可以做到吗?- 这个问题的原因是在主线程上运行的HelloWorld似乎不需要重新采样?

我的第二个问题是我认为多线程会显着降低性能是否正确?如果是的话,有没有办法在不对代码进行大修的情况下解决这个问题?

为了记录,我问是因为我正在使用 SWT 和 Sphinx4 在 Java 中编写一个简单的类似 Jeopardy 的语音识别游戏,主应用程序在主线程上运行,而识别在另一个线程上运行。我目前使用 ZipCity 示例识别听众的方式,但即使它在主线程上运行,它的效果也很糟糕,所以我将跳到更简单的识别方式,这就是我进行 HelloWorld 测试的原因。

编辑:我忘了提到我通常在错误的准确性示例中得到空的结果文本

这是代码,尽管它与示例中的完全相同:

好的工作之一:

工作不好的一个:

我会尽快尝试发布一些结果,但正如所说的第一个工作正常,第二个通常会触发 resultText.isEmpty(),即使它“识别”某些东西,它通常也是错误的。

EDIT2:我提高了麦克风的性能和音量,而且效果更好,但我仍然无法理解为什么会发生这种情况,因为正如我所说,在主线程中运行时,没有提高麦克风的结果仍然非常好。

主应用程序的性能也好得多,从 12 比 2 提高到 12 比 6。

0 投票
1 回答
184 浏览

speech-recognition - logTotalScore 和 logAcoustic Sc​​ore 在 Sphinx-4 helloworld 中究竟代表什么?

我想稍微修改一下 Sphinx-4 的 helloworld.java 并将其用于发音评估。

为此,我想知道两件事:

  1. logTotalScore 和 logAcoustic Sc​​ore 代表什么。(如果可能,请举例说明。)

  2. HelloWorld 在任何地方都使用 HMM 吗?