问题标签 [language-model]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 语言建模工具包
我想为文本语料库建立一个语言模型。有没有很好的开箱即用工具包可以减轻我的任务?我知道的唯一工具包是 CMU 的统计语言建模(SLM)工具包。
问候,
java - 在 Java 中在很短的时间内搜索一个非常大的 ARPA 文件
我有一个将近 1 GB 的 ARPA 文件。我必须在不到 1 分钟的时间内完成搜索。我已经搜索了很多,但我还没有找到合适的答案。我想我不必阅读整个文件。我只需要跳转到文件中的特定行并阅读整行。ARPA 文件的行长度不同。不得不提的是,ARPA 文件具有特定的格式。
文件格式
正如您在示例文件中看到的,我有 19 行 1-gram、234 行 2-gram 和 1013 行 3-gram。我将行的字符串部分提供给程序并获取字符串左侧和右侧的数字。输入字符串可以帮助我知道我必须在文件的哪个部分进行搜索。我必须找到一种不完全读取文件的方法,因为我的文件非常大,读取整个文件需要很多时间。我认为不使用索引文件并访问整行就跳转到文件中的特定行是一个好方法。
如果你能帮助我完成我的任务,那就太好了。
speech-recognition - 狮身人面像 4 损坏的 ARPA LM?
我有一个由kylm生成的 ARPA LM ,在运行 SPHINX 时,我得到了这个异常堆栈跟踪:
以下是 ARPA LM 的摘录:
PS:后面有一个新行\end\
异常表示 SPHINX 在最后一行遇到了意外的 EOF(它不应该在那里遇到 EOF 吗??)
请任何帮助!
speech-recognition - 创建 50,000 字的 ARPA 语言模型文件
我想创建一个将近 50,000 字的 ARPA 语言模型文件。我无法通过将文本文件传递给 CMU 语言工具来生成语言模型。是否有任何其他链接可以让我获得这么多单词的语言模型?
voice-recognition - 如何在语音识别中使用arpa文件
我使用 CMU SLM 工具包从文本文件创建了一个 ARPA 文件。
目前我不知道如何在我的项目中使用生成的 ARPA 文件而不是.lm
和.dic
文件。
如果有人知道这件事,请告诉我。
nlp - ARPA 语言模型文档
在哪里可以找到有关 ARPA 语言模型格式的文档?
我正在开发带有袖珍狮身人面像 STT 引擎的简单语音识别应用程序。出于性能原因,建议使用 ARPA。我想了解我可以做多少调整我的语言模型以满足我的自定义需求。
我发现的只是一些非常简短的 ARPA 格式描述:
- http://kered.org/blog/2008-08-12/arpa-language-model-file-format/
- http://www.speech.sri.com/projects/srilm/manpages/ngram-format.5.html
- http://www.speech.cs.cmu.edu/SLM/toolkit_documentation.html
我是 STT 的初学者,我很难理解这个(n-gram 等)。我正在寻找更详细的文档。类似于 JSGF 语法的文档在这里:
python - ARPA 文件的 Python 接口
我正在寻找一个 pythonic 接口来加载 ARPA 文件(回退语言模型)并使用它们来评估一些文本,例如获取它的对数概率、困惑度等。
我不需要在 Python 中生成 ARPA 文件,仅用于查询。
有人有推荐的套餐吗?我已经看过kenlm和swig-srilm,但是第一个很难在 Windows 中设置,第二个似乎不再维护。
nlp - 需要了解kenlm查询的输出格式
kenlm 论文似乎对 LM 有好处。我觉得提供的文档很少,很难理解。
所以,作为理解 kenlm 的一部分,我需要理解查询模型的输出格式。请提供一些细节。
我无法在 lm、kenlm 上正确标记,因为标签不可用。
细节:
执行:
输出:
python - 使用theano实现神经概率语言模型Python中的最大似然学习
我正在尝试从对数双线性模型的代码中实现python中神经概率语言模型的最大似然学习: https ://github.com/wenjieguan/Log-bilinear-language-models/blob/master/lbl.py
我在 theano 中使用 grad 函数来计算梯度,并尝试使用函数 train 来更新模型的参数,但它出错了。这是我的代码:
我刚刚学习了 Python 和神经概率语言模型,所以对我来说很难。请问你能帮帮我吗!谢谢!