问题标签 [mallet]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
classification - Mallet : 在 Maxent 算法中获取置信度值
我在 mallet 中使用 maxent 算法进行标签分类。我想知道是否有可能为 maxent 分类器预测的标签获得某种置信度值。我基本上需要的是分类器最有信心的前 K 个预测(不是针对每个标记,而是针对整个数据)实例,并将它们用于引导。有没有办法做到这一点?
text-mining - 使用保存的主题状态用槌推断主题
我使用以下命令从一些文档生成主题模型:
但是,我没有使用该--output-model
选项来生成序列化的主题培训对象。有什么方法可以使用状态文件来推断新文档的主题?训练很慢,如果我必须从头开始创建序列化模型,我需要几天时间才能重新训练。
nlp - 如何使用 Mallet 进行 NER
我是 NLP 主题的新手,并要求使用 Mallet 执行命名实体识别(NER)。我有一个文本,我为其中的每个单词提供特征向量。我想训练一个模型,稍后我可以在新的文本文件上进行测试。我的问题是如何创建这样的模型,模型的输入是什么。我可以使用一些代码示例 :) 谢谢!
nltk - MALLET 与 NLTK 中的主题建模
我刚刚阅读了一篇关于如何将 MALLET 用于主题建模的精彩文章,但我在网上找不到任何将 MALLET 与 NLTK 进行比较的东西,我已经有了一些经验。
它们之间的主要区别是什么?MALLET 是一个更“完整”的资源吗(例如,有更多的工具和算法)?或者在哪里有回答前两个问题的好文章?
nlp - 为什么使用 MALLET 主题推断对单个和一批文档会得到不同的结果?
我正在尝试使用 Mallet 2.0.7 执行 LDA 主题建模。从培训课程的输出来看,我可以训练 LDA 模型并获得良好的结果。此外,我可以使用该过程中内置的推理器,并在重新处理我的训练文件时获得类似的结果。但是,如果我从更大的训练集中取出一个单独的文件,并用推理器处理它,我会得到非常不同的结果,这并不好。
我的理解是推理器应该使用固定模型,并且仅具有该文档的本地特征,所以我不明白为什么在处理 1 个文件或训练集中的 1k 文件时会得到任何不同的结果。我没有进行频率截止,这似乎是一种会产生这种效果的全局操作。您可以在下面的命令中看到我正在使用的其他参数,但它们大多是默认的。将迭代次数更改为 0 或 100 并没有帮助。
导入数据:
火车:
特别是在培训期间分配给一个文件的主题,#14 是关于葡萄酒的,这是正确的:
在整个火车批次上运行推理:
火车上的推理分数——非常相似:
对仅包含该 1 个 txt 文件的另一个训练数据文件运行推理:
对一个文档的推理会产生主题 80 和 36,它们非常不同(14 的得分接近 0):
weka - Mallet vs Weka 用于文本分类
哪种产品(Mallet 或 Weka)更适合文本分类任务:
- 训练更简单
- 更好的结果
- 文档
我是这个问题的新手,所以任何评论都会很棒
java - Mallet HMM 训练问题
目前,我正在为 Mallet 关于 HMM 的糟糕文档而苦苦挣扎。我已经设法将数据导入实例(改编自 ImportExample.java 片段),我只是想知道如何使用它们来训练 HMM 模型。我首先创建了一个 HMM 实例,但我不确定是否要这样做:
或者使用相同的数据字母两次,如下所示:
无论哪种方式,当我到达
我收到以下错误:
cc.mallet.types.FeatureVector 不能转换为 cc.mallet.types.FeatureVectorSequence
如果您能提供任何帮助,我将不胜感激。
干杯
machine-learning - 如何理解 Mallet 中 Topic Model 类的输出?
当我在主题建模开发人员指南中尝试示例代码时,我真的很想了解该代码输出的含义。
首先在运行过程中,它给出:
所以问题1:第一行的“编码LDA:10个主题,4个主题位,1111个主题掩码”是什么意思?我只知道“10 个主题”是关于什么的。
问题2:“ <10> LL/token:-9,24097 <20> LL/token:-9,1026 <30> LL/token:-8,95386 <40> LL/token:- 8,75353" 是什么意思?这似乎是 Gibss 采样的一个指标。但它不是单调递增的吗?
之后,将打印以下内容:
这部分的第一行可能是token-topic assignment,对吧?
问题3:对于第一个主题,
0.008 被称为“主题分布”,是不是这个主题在整个语料库中的分布?然后好像有冲突:如上图的topic 0,其token会在copus中出现8+7+6+4+4+...次;相比之下,主题 7 在语料库中有 4+3+3+3+3... 次被识别。结果,主题 7 的分布应该低于主题 0。这是我无法理解的。更进一步,最后那个“0 0.55”是什么?
非常感谢您阅读这篇长文。希望您能回答它,并希望这对其他对 Mallet 感兴趣的人有所帮助。
最好的
java - Mallet:局部 N-gram
我想使用该--use-ngrams true
选项运行槌,但似乎无法使其正常工作。我已经使用以下方法导入了我的数据:
现在我想训练一个主题 ngram 模型:
但我收到了这个错误:
正如您所看到的,我将 mallet 作为命令行工具运行,并且不想窥探它的 API 以使其工作。有什么建议么?