问题标签 [pocketsphinx]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
speech-recognition - 如何从音标构建语言模型?
我使用工具 CMUCLMTK 使用来自维基百科转储的数据构建了泰米尔语语言模型。现在,我如何生成语音转录并在模型中替换它们。维基文章 ( http://cmusphinx.sourceforge.net/ wiki/phonemerecognition)说要替换转录而不是单词。我现在应该做什么?
android - 我可以修改 PocketSphinx 的关键字识别器“刷新率”吗?
我在 Android 上运行 PocketSphinx(版本 5prealpha)。我正在使用文件定义的关键字识别器,由以下代码段指定(kwfile
是关键字定义文件,并且mRecognizer
是 SpeechRecognizer 的一个实例):
总体而言,在优化了关键词阈值后,识别性能还是不错的。但是,如果我在一个关键字话语和下一个关键字话语之间等待任意时间(5 秒到几分钟),则第二个话语的识别性能会受到影响。例如,我会说“关键字”,它会被识别。如果我等待不到 5 秒并再次说出“关键字”,则可能会识别第二个话语(识别率超过 95%)。但是,如果我等待 15 秒,识别率会急剧下降,低于 50%。
我的假设是,当我第二次说出关键字时,识别器处于刷新的中间——也就是说它在一个Stop Recognition
事件和一个Start Recognition
事件之间,并且我的讲话超越了那个事件。这是我的 logcat 的典型视图。请注意,5 秒后,识别器“刷新”。在大多数情况下,这种情况大约每 5 秒发生一次。有时“刷新”之间可能长达 30 秒,但通常在 5 秒左右。
所以,我的问题是:我能做些什么来控制这个“刷新率”吗?这是由于我在RecognitionListener
实现中做错了什么引起的(见下文,但请注意 - 我通常不会在话语之间得到任何部分结果。)?或者是否有一个我不知道的 PocketSphinx API 调用来设置这个刷新率?或者,我可以在 PocketSphinx 源中进行更改以改善这种行为吗?
android - pocketsphinx-android 为 getBestScore() 和 getProb() 方法获得 0
我正在使用 pocketsphinx android 开发应用程序。使用关键词搜索激活。激活效果不太好,有很多误报,而且并不总是能识别我说的话。所以我决定使用 getProb 方法来查看检测到的单词的概率,但是 getBestScore() 和 getProb() 方法总是返回 0,这可能是什么原因?
grammar - 关键短语和语法之间的 PocketSphinx 差异
我正在分析 PocketSphinx 演示并使用它来更好地了解它是如何工作的。
我不明白关键短语(在演示“哦,强大的计算机”中)和语法之间的主要区别。我特别注意到:
关键短语更健壮:如果关键短语仅由一个单词组成,则单词必须完全正确...只说一个单词,这被解释为正确!!!
在语法案例中,我注意到我可以说出所有可能的单词(超出语法),PocketSphinx 尝试将一个单词“带回”到它的语法中……所以如果语法是“再见宝贝”,如果我说“狗猫香蕉”它明白“再见宝贝”......
所以,问题是:如何创建一个健壮的语法(如关键短语)以避免误报?这可能是一个门槛问题吗?
speech-recognition - pocketsphinx_continuous 在“读取 HMM 转换概率矩阵”时崩溃
我与 Visual Studio 社区一起编译。
我最初想测试的文件长达一个多小时,所以我用 3 秒的音频试了一下,然而,同样的事情发生了。以下是我使用的命令行参数:
我被告知要像这样转换文件:
所以我做到了,但我也尝试过没有转换。
当我运行此程序时,该程序似乎运行正常,但随后它在此处崩溃:
当使用 sphinxbase.dll 的调试版本运行时,会弹出一个警报,其中包含以下内容:
就在崩溃之前。我已经尝试了我能想到的一切,但似乎没有任何效果,所以任何帮助将不胜感激。
java - CMU Sphinx 5prealpha(语音识别系统)安装
我想尝试 sphinx 的最新版本,但不知道如何安装它。
第 4 个版本非常简单,我使用了演示,例如Hello World,并将库(jsapi
、sphinx4
、TDIFITS
、WSJ
)附加到项目中,如本教程所示:
https://www.youtube.com/watch?v=GeqtLrcOogs&list=PLh5G3y7ncCcWcR_Xgv_lSAvk-3wV7p3TH&index=13
我已经通过这个链接下载了程序:
http://sourceforge.net/projects/cmusphinx/files/sphinx4/5prealpha/
有一些演示,但没有库。我应该使用以前版本的库吗?也许有像我这样的菜鸟安装它的分步教程?谢谢你。
python-2.7 - 用于 python 的 CMUSphinx
我使用 cmu 的 pocketsphinx 将 wav 文件转换为文本。wav 文件自始至终都有英语对话。当使用带有 hmm、lm 和 dict(en-us 模型)的 pocketsphinx_continuous 时,转换后的文本与 wav 文件内容不匹配。我错过了什么吗?请对此有所了解。如果有人想要更多细节,我可以给你 wav 文件以及转换后的文本。
python - 配置pocketsphinx gstreamer 元素
我有pocketsphinx作为python gstreamer管道内的一个元素运行,类似于:
使用gst-inspect
,我可以看到 pocketsphinx 元素有几个属性(例如语言模型文件和字典文件),但这些属性与您通常可能传递给可执行文件的命令行选项是分开的。
我想更改 pocketsphinx 使用的日志文件,但这只是一个选项gst-pocketsphinx
,而不是pocketsphinx
gstreamer 元素。
如何将logfn
参数传递给 pocketsphinx gstreamer 元素?
sphinx4 - wngram2idngram 的正确参数?
我正在尝试使用以下命令生成 arpa 格式语言模型:
但是第二个命令wngram2idngram 不起作用并引发以下错误:
text2idngram:错误:必须指定 idngram 文件。
我如下更改参数,它可以工作。
我的问题是哪一个是正确的?我正在使用 cmulmtk 版本 3。
cmusphinx - cmudict-0.7b 哪个工具好,phonetisaurus 还是 logios?
由于没有维护 phonetisaurus 并且新的在线 LM Tool v3 正在使用 logios。
问题是推荐用于语音词典生成的工具是什么?
如果是logios,那么任何人都知道有关该程序的任何好文件吗?