问题标签 [mallet]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
729 浏览

classification - Mallet : 在 Maxent 算法中获取置信度值

我在 mallet 中使用 maxent 算法进行标签分类。我想知道是否有可能为 maxent 分类器预测的标签获得某种置信度值。我基本上需要的是分类器最有信心的前 K 个预测(不是针对每个标记,而是针对整个数据)实例,并将它们用于引导。有没有办法做到这一点?

0 投票
3 回答
2278 浏览

text-mining - 使用保存的主题状态用槌推断主题

我使用以下命令从一些文档生成主题模型:

但是,我没有使用该--output-model选项来生成序列化的主题培训对象。有什么方法可以使用状态文件来推断新文档的主题?训练很慢,如果我必须从头开始创建序列化模型,我需要几天时间才能重新训练。

0 投票
2 回答
5260 浏览

nlp - 如何使用 Mallet 进行 NER

我是 NLP 主题的新手,并要求使用 Mallet 执行命名实体识别(NER)。我有一个文本,我为其中的每个单词提供特征向量。我想训练一个模型,稍后我可以在新的文本文件上进行测试。我的问题是如何创建这样的模型,模型的输入是什么。我可以使用一些代码示例 :) 谢谢!

0 投票
3 回答
9314 浏览

nltk - MALLET 与 NLTK 中的主题建模

我刚刚阅读了一篇关于如何将 MALLET 用于主题建模的精彩文章,但我在网上找不到任何将 MALLET 与 NLTK 进行比较的东西,我已经有了一些经验。

它们之间的主要区别是什么?MALLET 是一个更“完整”的资源吗(例如,有更多的工具和算法)?或者在哪里有回答前两个问题的好文章?

0 投票
1 回答
5079 浏览

nlp - 为什么使用 MALLET 主题推断对单个和一批文档会得到不同的结果?

我正在尝试使用 Mallet 2.0.7 执行 LDA 主题建模。从培训课程的输出来看,我可以训练 LDA 模型并获得良好的结果。此外,我可以使用该过程中内置的推理器,并在重新处理我的训练文件时获得类似的结果。但是,如果我从更大的训练集中取出一个单独的文件,并用推理器处理它,我会得到非常不同的结果,这并不好。

我的理解是推理器应该使用固定模型,并且仅具有该文档的本地特征,所以我不明白为什么在处理 1 个文件或训练集中的 1k 文件时会得到任何不同的结果。我没有进行频率截止,这似乎是一种会产生这种效果的全局操作。您可以在下面的命令中看到我正在使用的其他参数,但它们大多是默认的。将迭代次数更改为 0 或 100 并没有帮助。

导入数据:

火车:

特别是在培训期间分配给一个文件的主题,#14 是关于葡萄酒的,这是正确的:

在整个火车批次上运行推理:

火车上的推理分数——非常相似:

对仅包含该 1 个 txt 文件的另一个训练数据文件运行推理:

对一个文档的推理会产生主题 80 和 36,它们非常不同(14 的得分接近 0):

0 投票
2 回答
2531 浏览

weka - Mallet vs Weka 用于文本分类

哪种产品(Mallet 或 Weka)更适合文本分类任务:

  1. 训练更简单
  2. 更好的结果
  3. 文档

我是这个问题的新手,所以任何评论都会很棒

0 投票
1 回答
1797 浏览

java - Mallet HMM 训练问题

目前,我正在为 Mallet 关于 HMM 的糟糕文档而苦苦挣扎。我已经设法将数据导入实例(改编自 ImportExample.java 片段),我只是想知道如何使用它们来训练 HMM 模型。我首先创建了一个 HMM 实例,但我不确定是否要这样做:

或者使用相同的数据字母两次,如下所示:

无论哪种方式,当我到达

我收到以下错误:

cc.mallet.types.FeatureVector 不能转换为 cc.mallet.types.FeatureVectorSequence

如果您能提供任何帮助,我将不胜感激。

干杯

0 投票
3 回答
625 浏览

r - 如何通过重组 MALLET 输出文件来创建表?

我正在使用MALLET进行主题分析,它在几千行和一百左右行的文本文件(“topics.txt”)中输出结果,其中每行由制表符分隔的变量组成,如下所示:

这是实际数据的片段:

我正在尝试使用R将此输出转换为数据表,其中主题是列标题,每个主题包含变量“比例”的值,直接位于每个变量“主题”的右侧,每个值'文本'。像这样:

或使用上面的数据片段,如下所示:

这是我必须完成的工作的R代码,是从朋友那里发来的,但它对我不起作用(而且我对它的了解还不够,无法自己修复):

对于如何使此代码正常工作的任何建议,我将不胜感激。我的问题可能与这个有关,也可能与这个有关,但我还没有能力立即使用这些问题的答案。

0 投票
3 回答
6298 浏览

machine-learning - 如何理解 Mallet 中 Topic Model 类的输出?

当我在主题建模开发人员指南中尝试示例代码时,我真的很想了解该代码输出的含义。

首先在运行过程中,它给出:

所以问题1:第一行的“编码LDA:10个主题,4个主题位,1111个主题掩码”是什么意思?我只知道“10 个主题”是关于什么的。

问题2:“ <10> LL/token:-9,24097 <20> LL/token:-9,1026 <30> LL/token:-8,95386 <40> LL/token:- 8,75353" 是什么意思?这似乎是 Gibss 采样的一个指标。但它不是单调递增的吗?

之后,将打印以下内容:

这部分的第一行可能是token-topic assignment,对吧?

问题3:对于第一个主题,

0.008 被称为“主题分布”,是不是这个主题在整个语料库中的分布?然后好像有冲突:如上图的topic 0,其token会在copus中出现8+7+6+4+4+...次;相比之下,主题 7 在语料库中有 4+3+3+3+3... 次被识别。结果,主题 7 的分布应该低于主题 0。这是我无法理解的。更进一步,最后那个“0 0.55”是什么?

非常感谢您阅读这篇长文。希望您能回答它,并希望这对其他对 Mallet 感兴趣的人有所帮助。

最好的

0 投票
1 回答
3531 浏览

java - Mallet:局部 N-gram

我想使用该--use-ngrams true选项运行槌,但似乎无法使其正常工作。我已经使用以下方法导入了我的数据:

现在我想训练一个主题 ngram 模型:

但我收到了这个错误:

正如您所看到的,我将 mallet 作为命令行工具运行,并且不想窥探它的 API 以使其工作。有什么建议么?