问题标签 [mallet]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 构建文章分类器 - NLTK/ Scikit-learn/ 其他 NLP 实现
对于我当前的项目,我必须构建一个主题建模或分类实用程序,它将处理数千篇文章以将它们分类为各种主题(开始时主题可能是 40-50)。例如,它将检查数据库技术文章并将它们分类是否文章是 NOSQL 文章/关系数据库文章/图形数据库文章(只是一个例子)。
我有非常基本的 NLP 背景,我们的团队大多有 python 后端脚本经验。我开始研究可用于实现它的各种选项,并遇到了基于 Python 的 NLTK 和 Scikit-Learn,以及基于 JVM 的 Weka 和 Mallet。
我的理解是 NLTK 更适合学习和理解各种 NLP 技术,如主题分类。
有人可以建议我们可以用于实现的最佳开源解决方案吗?如果我错过了任何有助于答案的信息,请告诉我。
text - 木槌和词干
我正在使用 mallet 进行文本分类任务,似乎 mallet 正在对我的文本应用一些词干算法。如何配置槌以避免使用此功能?
modeling - 木槌上的主题建模
我目前正在做主题建模的事情(初学者)我正在考虑使用木槌作为一些工具来让我了解这个领域,但是,我的问题是,我想训练一个基于 1000 个文档的模型,构建模型并在新的单个文档上使用该模型来生成其潜在主题。
但是,据我阅读有关 mallet 教程的内容,它总是说这个工具或 API 在文本语料库中很有用,这意味着它用于在多个文档中查找主题。
有没有一种方法可以根据模型(或从 1000 个文档中学习/构建的推理参数)在单个文档上找到主题?
有没有其他工具可以做到这一点?
非常感谢!
import - 槌“导入文件”使用管道
目前我正在使用mallet,当涉及到数据导入时,我可以根据API或在线解释导入文件或导入目录,但是当涉及到infer-topics部分时,据说新文档应使用“输入管道”选项导入,以确保它们使用相同的字母表。
在命令行上很容易,但我搜索了 API,想知道可以将它们链接在一起的代码在哪里?我的意思是根据已经存在的 train-samples mallet 将新文档文件转换为 mallet 格式?
谢谢。
machine-learning - bin/mallet train 主题在每个实例中得到不同的结果
当我运行命令 bin\mallet train-topics --input input.tutorial.mallet --num-topics 40 --num-iterations 100 --optimize-interval 50 --optimize-burn-in 200 --output- state input.gz --output-topic-keys input-keys.txt --output-doc-topics input-proportion.txt
在运行命令的每个实例中,我都会得到不同的结果。
输出:
0 AJAY_DASARI 19 0.062051649928263994 39 0.03263988522238164 35 0.03263988522238164 33 0.03263988522238164 32 0.03263988522238164 23 0.03263988522238164 ............... 1 BALVINDERSINGH 21 0.06297779395704405 36 0.04805242082271569 22 0.04805242082271569 35 0.03312704768838733 32 0.03312704768838733 31 0.03312704768838733 30 0.03312704768838733 26 0.03312704768838733 24 0.03312704768838733 15 0.03312704768838733 13 ......
每次使用命令时如何得到相同的结果
mallet - 如何将文件导入槌进行主题建模
我想使用槌进行主题建模,我有一个问题。我的数据在一个文件中每行一个实例。但我没有考虑任何标签或实例名称。所以每一行都以文本开头。是否需要这些标签或实例名称?
mallet - 即使是帮助命令,槌子也不起作用
我将使用槌冷杉主题建模,我正在使用 linux。我已经安装了mallet(但不是ant)并且我的系统中有java。所以当我想对mallet使用命令时它不起作用。唯一有效的命令是:bin/mallet它给了我一个命令列表。但是如果我输入: bin/mallet import-dir --help 它给了我这个错误:
任何帮助将非常感激。
java - Mallet 特征选择类似于将特征值设置为 0
我正在查看 Mallet 源代码,似乎大多数分类器实现(例如朴素贝叶斯)并没有真正考虑到特征选择,即使InstanceList
该类有一个setFeatureSelection
方法。
现在我想对我的数据集进行一些涉及特征选择的快速实验。我在想,从技术捷径的角度来看,我可能会获得排名最低的特征,并将这些值在实例向量中设置为 0。这在机器学习中是否等同于分类器训练中的特征选择,从而根本不考虑它们(如果不涉及平滑,例如拉普拉斯估计)?
谢谢你
mallet - 如何获得槌中每个主题的概率
我正在用 mallet 进行主题建模。我已经导入了我的文件(一行中的每个文档),并且我用 200 个主题训练了 mallet。现在我有 200 个主题,每个主题都有与之相关的单词。现在我需要了解每个主题` s 概率。我怎么知道?谢谢