问题标签 [mallet]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
552 浏览

python - 构建文章分类器 - NLTK/ Scikit-learn/ 其他 NLP 实现

对于我当前的项目,我必须构建一个主题建模或分类实用程序,它将处理数千篇文章以将它们分类为各种主题(开始时主题可能是 40-50)。例如,它将检查数据库技术文章并将它们分类是否文章是 NOSQL 文章/关系数据库文章/图形数据库文章(只是一个例子)。

我有非常基本的 NLP 背景,我们的团队大多有 python 后端脚本经验。我开始研究可用于实现它的各种选项,并遇到了基于 Python 的 NLTK 和 Scikit-Learn,以及基于 JVM 的 Weka 和 Mallet。
我的理解是 NLTK 更适合学习和理解各种 NLP 技术,如主题分类。

有人可以建议我们可以用于实现的最佳开源解决方案吗?如果我错过了任何有助于答案的信息,请告诉我。

0 投票
0 回答
641 浏览

text - 木槌和词干

我正在使用 mallet 进行文本分类任务,似乎 mallet 正在对我的文本应用一些词干算法。如何配置槌以避免使用此功能?

0 投票
2 回答
691 浏览

modeling - 木槌上的主题建模

我目前正在做主题建模的事情(初学者)我正在考虑使用木槌作为一些工具来让我了解这个领域,但是,我的问题是,我想训练一个基于 1000 个文档的模型,构建模型并在新的单个文档上使用该模型来生成其潜在主题。

但是,据我阅读有关 mallet 教程的内容,它总是说这个工具或 API 在文本语料库中很有用,这意味着它用于在多个文档中查找主题。

有没有一种方法可以根据模型(或从 1000 个文档中学习/构建的推理参数)在单个文档上找到主题?

有没有其他工具可以做到这一点?

非常感谢!

0 投票
0 回答
310 浏览

import - 槌“导入文件”使用管道

目前我正在使用mallet,当涉及到数据导入时,我可以根据API或在线解释导入文件或导入目录,但是当涉及到infer-topics部分时,据说新文档应使用“输入管道”选项导入,以确保它们使用相同的字母表。

在命令行上很容易,但我搜索了 API,想知道可以将它们链接在一起的代码在哪里?我的意思是根据已经存在的 train-samples mallet 将新文档文件转换为 mallet 格式?

谢谢。

0 投票
0 回答
681 浏览

java - MALLET:如何实现基于 crf 的编辑距离?

我正在尝试追踪据称在MALLET中实现的编辑距离算法。

我想使用此处描述的 CRF 编辑距离算法(由 Andrew McCallum 等人)。作者在 FST 类中确认了它的 Mallet:

该模型已作为 Mallet 中有限状态传感器类的一部分实现。

但是,FST 教程页面(显示 NER 标记器)或测试用例都没有任何帮助,至少我可以看到。

问题

  • 我在哪里可以找到 Mallet 中编辑距离 CRF 算法的实现?
  • 我该如何使用它?
0 投票
3 回答
636 浏览

machine-learning - bin/mallet train 主题在每个实例中得到不同的结果

当我运行命令 bin\mallet train-topics --input input.tutorial.mallet --num-topics 40 --num-iterations 100 --optimize-interval 50 --optimize-burn-in 200 --output- state input.gz --output-topic-keys input-keys.txt --output-doc-topics input-proportion.txt

在运行命令的每个实例中,我都会得到不同的结果。

输出:

0 AJAY_DASARI 19 0.062051649928263994 39 0.03263988522238164 35 0.03263988522238164 33 0.03263988522238164 32 0.03263988522238164 23 0.03263988522238164 ............... 1 BALVINDERSINGH 21 0.06297779395704405 36 0.04805242082271569 22 0.04805242082271569 35 0.03312704768838733 32 0.03312704768838733 31 0.03312704768838733 30 0.03312704768838733 26 0.03312704768838733 24 0.03312704768838733 15 0.03312704768838733 13 ......

每次使用命令时如何得到相同的结果

0 投票
1 回答
723 浏览

mallet - 如何将文件导入槌进行主题建模

我想使用槌进行主题建模,我有一个问题。我的数据在一个文件中每行一个实例。但我没有考虑任何标签或实例名称。所以每一行都以文本开头。是否需要这些标签或实例名称?

0 投票
2 回答
1762 浏览

mallet - 即使是帮助命令,槌子也不起作用

我将使用槌冷杉主题建模,我正在使用 linux。我已经安装了mallet(但不是ant)并且我的系统中有java。所以当我想对mallet使用命令时它不起作用。唯一有效的命令是:bin/mallet它给了我一个命令列表。但是如果我输入: bin/mallet import-dir --help 它给了我这个错误:

任何帮助将非常感激。

0 投票
1 回答
1188 浏览

java - Mallet 特征选择类似于将特征值设置为 0

我正在查看 Mallet 源代码,似乎大多数分类器实现(例如朴素贝叶斯)并没有真正考虑到特征选择,即使InstanceList该类有一个setFeatureSelection方法。

现在我想对我的数据集进行一些涉及特征选择的快速实验。我在想,从技术捷径的角度来看,我可能会获得排名最低的特征,并将这些值在实例向量中设置为 0。这在机器学习中是否等同于分类器训练中的特征选择,从而根本不考虑它们(如果不涉及平滑,例如拉普拉斯估计)?

谢谢你

0 投票
1 回答
198 浏览

mallet - 如何获得槌中每个主题的概率

我正在用 mallet 进行主题建模。我已经导入了我的文件(一行中的每个文档),并且我用 200 个主题训练了 mallet。现在我有 200 个主题,每个主题都有与之相关的单词。现在我需要了解每个主题` s 概率。我怎么知道?谢谢