“mallet”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

729 浏览

classification - Mallet : 在 Maxent 算法中获取置信度值

我在 mallet 中使用 maxent 算法进行标签分类。我想知道是否有可能为 maxent 分类器预测的标签获得某种置信度值。我基本上需要的是分类器最有信心的前 K 个预测（不是针对每个标记，而是针对整个数据）实例，并将它们用于引导。有没有办法做到这一点？

2011-07-05T13:28:56.747

0 投票

3 回答

2278 浏览

text-mining - 使用保存的主题状态用槌推断主题

我使用以下命令从一些文档生成主题模型：

但是，我没有使用该--output-model选项来生成序列化的主题培训对象。有什么方法可以使用状态文件来推断新文档的主题？训练很慢，如果我必须从头开始创建序列化模型，我需要几天时间才能重新训练。

text-mining topic-modeling mallet

2011-07-19T19:27:21.640

0 投票

2 回答

5260 浏览

nlp - 如何使用 Mallet 进行 NER

我是 NLP 主题的新手，并要求使用 Mallet 执行命名实体识别（NER）。我有一个文本，我为其中的每个单词提供特征向量。我想训练一个模型，稍后我可以在新的文本文件上进行测试。我的问题是如何创建这样的模型，模型的输入是什么。我可以使用一些代码示例 :) 谢谢！

nlp mallet

2011-07-21T12:54:05.560

0 投票

3 回答

9314 浏览

nltk - MALLET 与 NLTK 中的主题建模

我刚刚阅读了一篇关于如何将 MALLET 用于主题建模的精彩文章，但我在网上找不到任何将 MALLET 与 NLTK 进行比较的东西，我已经有了一些经验。

它们之间的主要区别是什么？MALLET 是一个更“完整”的资源吗（例如，有更多的工具和算法）？或者在哪里有回答前两个问题的好文章？

nltk mallet

2011-09-19T19:24:04.117

0 投票

1 回答

5079 浏览

nlp - 为什么使用 MALLET 主题推断对单个和一批文档会得到不同的结果？

我正在尝试使用 Mallet 2.0.7 执行 LDA 主题建模。从培训课程的输出来看，我可以训练 LDA 模型并获得良好的结果。此外，我可以使用该过程中内置的推理器，并在重新处理我的训练文件时获得类似的结果。但是，如果我从更大的训练集中取出一个单独的文件，并用推理器处理它，我会得到非常不同的结果，这并不好。

我的理解是推理器应该使用固定模型，并且仅具有该文档的本地特征，所以我不明白为什么在处理 1 个文件或训练集中的 1k 文件时会得到任何不同的结果。我没有进行频率截止，这似乎是一种会产生这种效果的全局操作。您可以在下面的命令中看到我正在使用的其他参数，但它们大多是默认的。将迭代次数更改为 0 或 100 并没有帮助。

导入数据：

火车：

特别是在培训期间分配给一个文件的主题，#14 是关于葡萄酒的，这是正确的：

在整个火车批次上运行推理：

火车上的推理分数——非常相似：

对仅包含该 1 个 txt 文件的另一个训练数据文件运行推理：

对一个文档的推理会产生主题 80 和 36，它们非常不同（14 的得分接近 0）：

nlp machine-learning mallet topic-modeling

2011-10-03T15:15:05.877

0 投票

2 回答

2531 浏览

weka - Mallet vs Weka 用于文本分类

哪种产品（Mallet 或 Weka）更适合文本分类任务：

训练更简单
更好的结果
文档

我是这个问题的新手，所以任何评论都会很棒

weka mallet

2011-10-31T12:49:53.340

0 投票

1 回答

1797 浏览

java - Mallet HMM 训练问题

目前，我正在为 Mallet 关于 HMM 的糟糕文档而苦苦挣扎。我已经设法将数据导入实例（改编自 ImportExample.java 片段），我只是想知道如何使用它们来训练 HMM 模型。我首先创建了一个 HMM 实例，但我不确定是否要这样做：

或者使用相同的数据字母两次，如下所示：

无论哪种方式，当我到达

我收到以下错误：

cc.mallet.types.FeatureVector 不能转换为 cc.mallet.types.FeatureVectorSequence

如果您能提供任何帮助，我将不胜感激。

干杯

java mallet hidden-markov-models

2011-10-31T14:56:25.537

0 投票

3 回答

625 浏览

r - 如何通过重组 MALLET 输出文件来创建表？

我正在使用MALLET进行主题分析，它在几千行和一百左右行的文本文件（“topics.txt”）中输出结果，其中每行由制表符分隔的变量组成，如下所示：

这是实际数据的片段：

我正在尝试使用R将此输出转换为数据表，其中主题是列标题，每个主题包含变量“比例”的值，直接位于每个变量“主题”的右侧，每个值'文本'。像这样：

或使用上面的数据片段，如下所示：

这是我必须完成的工作的R代码，是从朋友那里发来的，但它对我不起作用（而且我对它的了解还不够，无法自己修复）：

对于如何使此代码正常工作的任何建议，我将不胜感激。我的问题可能与这个有关，也可能与这个有关，但我还没有能力立即使用这些问题的答案。

r dataframe mallet

2011-11-08T23:17:54.540

0 投票

3 回答

6298 浏览

machine-learning - 如何理解 Mallet 中 Topic Model 类的输出？

当我在主题建模开发人员指南中尝试示例代码时，我真的很想了解该代码输出的含义。

首先在运行过程中，它给出：

所以问题1：第一行的“编码LDA：10个主题，4个主题位，1111个主题掩码”是什么意思？我只知道“10 个主题”是关于什么的。

问题2：“ <10> LL/token：-9,24097 <20> LL/token：-9,1026 <30> LL/token：-8,95386 <40> LL/token：- 8,75353" 是什么意思？这似乎是 Gibss 采样的一个指标。但它不是单调递增的吗？

之后，将打印以下内容：

这部分的第一行可能是token-topic assignment，对吧？

问题3：对于第一个主题，

0.008 被称为“主题分布”，是不是这个主题在整个语料库中的分布？然后好像有冲突：如上图的topic 0，其token会在copus中出现8+7+6+4+4+...次；相比之下，主题 7 在语料库中有 4+3+3+3+3... 次被识别。结果，主题 7 的分布应该低于主题 0。这是我无法理解的。更进一步，最后那个“0 0.55”是什么？

非常感谢您阅读这篇长文。希望您能回答它，并希望这对其他对 Mallet 感兴趣的人有所帮助。

最好的

machine-learning topic-modeling mallet

2011-12-09T15:02:18.737

0 投票

1 回答

3531 浏览

java - Mallet：局部 N-gram

我想使用该--use-ngrams true选项运行槌，但似乎无法使其正常工作。我已经使用以下方法导入了我的数据：

现在我想训练一个主题 ngram 模型：

但我收到了这个错误：

正如您所看到的，我将 mallet 作为命令行工具运行，并且不想窥探它的 API 以使其工作。有什么建议么？

java mallet lda topic-modeling

2012-03-27T15:19:44.607

问题标签 [mallet]

Reference