问题标签 [srilm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
compiler-errors - 使用 cygwin 安装 SRILM 并获取“iconv.h: No such file or directory #include_next“ 错误
我正在尝试在本教程的帮助下使用 Cygwin 安装 SRILM,但出现此错误:
在 cygwin 重新安装期间,我多次检查了 iconv 包。
知道可能出了什么问题吗?
PS我使用的是Windows 8.1,srilm-1.7.1
voice-recognition - 使用 SRILM 为僧伽罗语创建语言模型的问题
我正在尝试使用pocketsphinx 创建一个僧伽罗语语音识别系统。我使用 SRILM 工具来创建语言模型。我创建语言模型的源文件在这里。我在 Windows 8.1 上使用 cygwin 来运行 SRILM 1.7.1。但是一旦我运行命令
我越来越
我在这里做错了什么?sinhalacorpus.Train 文件是使用 Notepad++ 手动创建的
speech-recognition - 将 ngrams 计数文件转换为 ARPA 格式
我想将我所有的 n-gram 文件转换为一个ARPA文件。它将用作语音识别的语言模型。
我有不同的 n-gram 文件,2-gram、3-gram 和 4-gram。以 2-gram 文件为例
two grams -- frequency similar degree 32 Writing writes 1 towars their 3 country feature 1 like gold 446 like golf 64
我怎样才能做到这一点?
nlp - 使用隐藏事件语言模型预测隐藏事件的底层算法是什么?
我将标点符号预测问题建模为隐藏事件模型,并尝试遵循 Stolcke 的论文Modeling the Prosody of Hidden Events for Improvement Word Recognition 中描述的算法。
在计算了一个 ngram 模型后,他描述了计算事件的最大似然序列的算法:
通过对 P(W,S) 使用 N-gram 模型,并如等式 4 那样分解韵律似然性,联合模型 P(W,S,F) 等效于隐马尔可夫模型 (HMM)。HMM 状态是(单词,事件)对,而韵律特征形成观察。转移概率由 N-gram 模型给出;排放概率由下述韵律模型估算。基于这种结构,我们可以使用熟悉的 HMM 前向动态规划算法有效地对所有可能的事件序列进行求和。
我很困惑这怎么可能是带有状态(单词,事件)的马尔可夫模型,因为如果我们的基础模型是 N-gram 模型,在我看来,状态需要对 N-1 个先前的单词进行编码才能拥有所有必要的信息来预测下一个状态。这里发生了什么?谢谢!
macos - 在 MacOS 上安装 SRILM 时遇到问题
我正在尝试在运行 El Capitan 的 Mac 上安装 SRLIM。安装似乎正在进行,但在测试阶段它会引发一堆关于找不到文件的错误,例如:
./File.cc:23:10:致命错误:找不到“Array.cc”文件/#include“Array.cc”
我查过了,所有的文件都在那里。肯定有其他问题,但我无法弄清楚它是什么。
谁能指出我正确的方向?
speech-recognition - 如何从 CMU Sphinx 获取 CTM 文件?
我已经使用我的语言模型将我的语音解码为音素。我需要将语音分割成句子和单词。我知道,ctm 文件会有所帮助。谁能告诉我如何为特定的语音实例生成 ctm 文件?
nlp - 使用 SRILM 的语言模型
我正在尝试使用 SRILM 构建语言模型。我有一个短语列表,我使用以下方法创建模型:
在此之后,我尝试制作一些示例来查看不同短语的概率,结果发现对数概率为-0.9。
问题是训练中有一些词的对数概率较低。例如,有 5 个“abatanuono”,其对数概率为-4.8。
我认为这很奇怪,因为一个短语<s> <unk> </s>
比<s> abatantuono </s>
在训练集中更有可能出现 3-gram <s> abatantuono </s>
!
这可以在这里看到:
你认为问题可能是什么?
谢谢
speech-recognition - 在 SRILM 上构建语言
现在我想创建一个 3-gram 模型。一个词可以有多种发音方式,所以我想添加错误的词,像这样在 LM 中正确的词
CHE&3NE*
,FOURCHU*
是发音错误的单词。谁能帮我在 SRILM 中做到这一点?
linux - 我无法在 linux mint 上安装工具包 srilm
我已经从它的主页下载了工具包 srilm:http ://www.speech.sri.com/projects/srilm/download.html
解压后,在 srilm/bin/i686 位置没有文件 ngram-count。
任何人都可以帮助我吗?出了什么问题。