问题标签 [kenlm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 在 Windows 上使用 Java 进行 Kenlm 语言模型评分
我正在使用“.arpa”文件提取 n-gram 概率的 Java 项目。理想情况下,我想使用“.klm”文件(使用“.arpa”文件创建),类似于:
但是 Windows 不支持 Java 的 kenlm。有谁知道评分句子的任何替代方法?
谢谢。
nlp - 不同的kenlm 和 berkeleylm 之间的概率
我使用 kenlm 和 berkeleylm 构建 ngram 语言模型,但它们给 token 的概率非常不同。
kenlm 给出:
而 berkeleylm 给出:
我想知道他们为什么以不同的方式处理这些问题以及这些差异如何导致不同的结果?
c++ - Toolchain.cmake 为 Android 交叉编译 kenlm
我尝试让 kenlm 二进制文件在 Android 上可用。Kenlm 是用 c++ 编写的,使用 cmake,所以我尝试做一个工具链文件来与 cmake 交叉编译。
我的工具链文件如下所示:
以及来自 kenlm 的 CMakeLists.txt
当我尝试
我明白了
所以我尝试在工具链文件中添加 boost 目录:
它适用于 boost 库,但弹出另一个错误
我一直在尝试很多事情让它像 set(LINK_DIRECTORIES), set(CMAKE_INCLUDE_PATH), set(Boost_LIBRARY_DIRS) (添加多个 boost dirs), set(KENLM_ROOT_DIR), set(KENLM_LIB), set(KENLM_UTIL_LIB), set (KENLM_INC)
没有任何效果,我已经搜索了一段时间知道,所以如果你有一些提示,那就太好了
-------------------------------------------------- -------------------------------------------------- -------------------------------------------
**编辑:我为 android 编译了 boost,但我没有用 bzip2 成功地做到这一点,我知道这种风格有一个错误 **
android - 为 Android 编译 bzip2?
我正在尝试从 ubuntu 18.04 交叉编译 Kenlm for Android。为此,我需要先编译它的所有依赖项。我成功地为 android 编译了 boost,但我没有找到如何使用 bzip2 来做到这一点。
当我使用 cmake 交叉编译 kenlm 时,使用这个 toolchain.cmake
我可以看到这个:
我尝试从 github 编译:https ://github.com/enthought/bzip2-1.0.6 ,但我不知道如何为另一个目标编译 Makefile。这个 repo 的自述文件说
Bzip.org 链接到 sourceforge,但只有一个文件可供下载,即 tar.gz。
谢谢你的时间。
spell-checking - 如何使用 kenlm 检查句子中的单词对齐方式?
我看过很多博客说语言模型可以用于许多任务,但除了文本生成之外,我找不到任何好的实现。
我的问题是,我如何使用像 kenlm 这样的语言模型来纠正我的句子的对齐和拼写错误。我知道 kenlm 已经为 deepspeech 做到了这一点,但我想了解它实际上是如何做的以及如何实现它。
language-model - 为 Windows 设置 kenlm
官方网站很清楚,kenlm
在 Windows 中不支持。github 存储库中有一个 Windows 标签,但它似乎由少数随机贡献者维护。
那么如何为 Windows 设置 kenlm 呢?
lm - 为什么 Kenlm lm 模型不断为不同的单词返回相同的分数?
为什么 kenlm 模型返回相同的值?我也尝试过使用 4-gram arpa 文件。同样的问题。
结果:
['-2.00, 1, True', '-21.69, 1, False', '-1.59, 1, False', '-2.69, 1, True']
['-2.00, 1, True', '-21.69, 1, False', '-1.59, 1, False', '-2.69, 1, True']
['-2.00, 1, True', '-21.69, 1, False', '-1.59, 1, False', '-2.69, 1, True']
python - ['kenlm/build/bin/build_binary','-a','255','-q','8','-v','trie','lm_filtered.arpa','/content/lm. binary']' 返回非零退出状态 1
在构建 lm binay 以创建记分员 doe deepspeech 模型期间,我一次又一次地收到以下错误
我使用的命令如下
google-colaboratory - 谷歌 Colab 上的 Kenlm lmplz
我使用 Kenlm 在 Google Colab 上训练了一个语言模型。这是我在 bin 文件夹中的内容:
我在 bin 文件夹中,我也把我的“train.*”文件放在那里但是当
Colab 回复:
我该如何运行它?