问题标签 [sphinx4]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
speech-to-text - 使用 Sphinx4 和 es_MX_broadcast_cont_2500
我目前致力于开发西班牙语 (MX) 简短采访(时长约 2 分钟)的音频转录器。我一直在网上冲浪,但找不到这个,也许太容易了:/。在运行 .jar 时,我收到此警告(我假设)来自 es_MX_broadcast...voxforge 包的 /etc/h4.dict 中所有带有重音符号的单词,并且根本没有转录或其他错误。
...
WARNING dictionary The dictionary is missing a phonetic transcription for the word 'kyrgyzst�'
'WARNING dictionary The dictionary is missing a phonetic transcription for the word 'explotaci�'
WARNING dictionary The dictionary is missing a phonetic transcription for the word 'inclu�'
...
我的线索是文本编码器可能存在一些配置问题,但也许我需要创建语言模型。我真的很想训练它,但首先我需要它工作。这是 config.xml 文件的 linguist/dictionary/language_model/acoustic_model 部分
-------- 这是新信息(2013 年 10 月 3 日)----------
谢谢,但这不是问题。该文件已经是 UTF8 并且我已经将 JAVA TOOLS OPTION 设置为 UTF8,还使用 -Dfile.encoding 运行 .jar 并且任何更改,我得到相同的列表。这很奇怪,因为我试图弄清楚文件中是否还有另一个字典列表,但我一无所知。这真的很奇怪,因为 h4.dict 是大写的,警告是小写的,还有一些带有重音的单词没有出现在警告列表中。我试图用更少的单词保存另一个 .dict 文件,但它没有用,实际上警告中出现了更多的单词。
我不知道我没有像其他演示中使用的那样将 .jar 用于声学模型是否重要,或者是否与根本没有转录或其他错误的事实有关。
我真的希望任何人都可以帮助我弄清楚,同时我会更加努力。
非常感谢提前
matlab - 从 MATLAB 和 SPhinx4 生成的 MFCC 文件是否不同?
我使用 MATLAb 将 .wav 文件转换为 .mfc 文件。我找到了两个 MATLAB 代码来做同样的事情。
http://www.ee.columbia.edu/~dpwe/resources/matlab/rastamat/
http://www.mathworks.in/matlabcentral/fileexchange/32849-htk-mfcc-matlab/content/mfcc/example.m
然而,两者都给出了不同的 MFCCS。其中一个是提供一个 20 行的 mfc 文件,另一个是 13 行。我猜有 13 个 MFCC 系数,那么 13 行是否代表 13 个系数?我还必须使用两个波形文件的 MFCC 来找出一个声音是如何在另一个文件中出现的。但结果并不正确。请帮忙。
java - 如何在 Eclipse 中为 Sphinx4 创建项目文件?
我从这里下载了Sphinx 4 beta版本 3 ,但是当我尝试导入 Eclipse 时,它说它的文件夹中没有有效的项目文件
如何为此创建有效的项目文件?
controls - 使用笔记本电脑的语音输入进行电机控制
我的目标是控制使用语音输入,例如“前进”和“后退”。我希望在编程部分使用 Sphinx 4 (JAVA)。另外我打算使用笔记本电脑来提供输入语音。我对语音识别研究完全陌生。所以有人可以指导我从哪里开始,并在 sphinx 4 中为我提供一个示例代码来捕获几个简单的单词。
speech-recognition - “回退到非递归分区” sphinx 4
我训练了我的声学模型,并在一个小数据(10 个越南语单词)上获得了可接受的准确率(85%)。但是当我将此模型集成到 Transcriber 示例(与 Sphinx 4 一起打包)并尝试转录上述 10 个单词中的一个单词时,我收到了一个“回退到非递归分区”列表。我需要它来输出一个单词。
这是我的项目。
任何的想法?谢谢
java - Sphinx4 - 搜索管理器资源分配失败
我正在使用 sphinx4 进行项目。我尝试运行应用程序 helloworld 但我不断收到以下错误
我检查了 jre 版本、路径、导入、jar,发现一切正常。我还为 build.xml 和 demo.xml 运行 ant build。我认为问题出在 helloworld.config.xml 中,但我无法弄清楚。这是 hello.config.xml 文件:
任何帮助为什么我仍然收到此消息?!我可以做哪些可能的修复/检查?!
java - 尽管库在类路径中,但找不到 Sphinx 类?
我下载了 sphinx4-1.0beta6-bin.zip并将其安装在我的 64 位 Ubuntu 12.04 LTS 上。我能够运行该HelloWorld
示例。但是,当我创建自己的类并创建一个Configuration
对象时,如下所示:
它被标记为错误。即使我在库中有适当的 jar 并且库在构建路径中, Eclipse也根本找不到该类。
以下是图书馆中的罐子:
js.jar
jsapi.jar
sphinx4.jar
tags.jar
那么,为什么我会收到这个错误?
voice-recognition - 此文件是否符合 Sphinx 培训的条件
我的 WAV在开头和结尾都有一些小的嗡嗡声。该文件是否适合 Sphinx 培训?如果是,我是否必须在转录文件中包含一些特殊字符?
感谢你并致以真诚的问候。
java - 多线程时的 Sphinx4 性能问题
我以 Sphinx4 HelloWorld 为例,制作了自己的语法文件,其中包含“什么是病毒”或“什么是应用软件”之类的句子,简单的 JSGF 内容,我确实分别标记了每个句子,如下所示:
没有 n-gram,因为我不完全理解它,我不确定它是否适用于这样一个简单的例子(或者我认为它不适用)。无论如何,代码只是 HelloWorld.java 的复制粘贴,并且识别效果很好,我会说它大约 90% 准确。
现在我把这段代码放到一个 Runnable 中,启动了一个新线程,突然间识别率非常可怕,大约为 10%(十分之一是正确的)。
显然,我直接在应用程序中使用我的麦克风(内置笔记本电脑麦克风)捕捉声音,并且我看到了一些建议,即声音应该根据我使用的字典(这是标准 WSJ_8gau_13dCep_16k_40mel_130Hz_6800Hz)重新采样,所以我的第一个问题是:内置的mic.startRecording() 方法可以做到吗?- 这个问题的原因是在主线程上运行的HelloWorld似乎不需要重新采样?
我的第二个问题是我认为多线程会显着降低性能是否正确?如果是的话,有没有办法在不对代码进行大修的情况下解决这个问题?
为了记录,我问是因为我正在使用 SWT 和 Sphinx4 在 Java 中编写一个简单的类似 Jeopardy 的语音识别游戏,主应用程序在主线程上运行,而识别在另一个线程上运行。我目前使用 ZipCity 示例识别听众的方式,但即使它在主线程上运行,它的效果也很糟糕,所以我将跳到更简单的识别方式,这就是我进行 HelloWorld 测试的原因。
编辑:我忘了提到我通常在错误的准确性示例中得到空的结果文本
这是代码,尽管它与示例中的完全相同:
好的工作之一:
工作不好的一个:
我会尽快尝试发布一些结果,但正如所说的第一个工作正常,第二个通常会触发 resultText.isEmpty(),即使它“识别”某些东西,它通常也是错误的。
EDIT2:我提高了麦克风的性能和音量,而且效果更好,但我仍然无法理解为什么会发生这种情况,因为正如我所说,在主线程中运行时,没有提高麦克风的结果仍然非常好。
主应用程序的性能也好得多,从 12 比 2 提高到 12 比 6。
speech-recognition - logTotalScore 和 logAcoustic Score 在 Sphinx-4 helloworld 中究竟代表什么?
我想稍微修改一下 Sphinx-4 的 helloworld.java 并将其用于发音评估。
为此,我想知道两件事:
logTotalScore 和 logAcoustic Score 代表什么。(如果可能,请举例说明。)
HelloWorld 在任何地方都使用 HMM 吗?