问题标签 [mallet]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
318 浏览

lda - 如何将新文档添加到 mallet 中的现有主题模型或批量处理大量文档的模型

我想使用主题建模,发现 MALLET 适合我。
我使用大约 10 万个文档成功创建了我的第一个演示。现在根据我的要求,我必须处理 1000 万个无法进一步处理的文档。是否可以将新文档添加到现有主题模型或类似创建两个模型并合并为单个模型并通过合并所有模型来获得输出,因为 mallet 无法一次性处理如此大的文档,我正在考虑批量处理模型并通过合并所有文档来获得输出
比如说我会制作 100 批 10 万个文档并在每批上运行 mallet,最后通过合并所有 100 批获得结果

谢谢

0 投票
1 回答
867 浏览

r - jcall中的R槌错误:java.lang.NoSuchMethodException:给定参数没有合适的方法

我在 R 中使用槌,在我安装 devtools 之前它工作正常。之后,我开始收到我从未遇到过的错误。

错误被抛出:

搜索后,我发现有人回答了确切的问题,而该问题中给出的答案实际上并没有用。由于它不是一个公认的答案,因此不确定答案是否正确。

rjava .jcall 问题

0 投票
0 回答
347 浏览

lda - 如何在 MALLET 的主题建模中导入和使用特征向量?

  • 我正在使用 MALLET 的主题建模。

  • 我有一组关键字和一组文档的权重,我想训练这些文档并使用模型来推断新文档。

注意:文档的每个关键字都有分配给它的权重,类似于 tf-idf 分数。

根据我从文档中可以推断的内容,MALLET 的主题建模仅支持序列数据而不支持向量数据

我想使用分配给文档每个关键字的权重进行分析。如果我不这样做,那么每个关键字都会被同等对待,因为我在分析时会丢失重要信息。

  • 关于如何对我的数据使用 MALLET 主题建模的任何建议?
0 投票
1 回答
545 浏览

java - 什么是使用槌库进行主题建模的估计函数

我是主题建模的新手,我正在尝试使用 Mallet 库,但我有一个问题。

我正在使用 LDA 的简单并行线程实现来查找某些实例的主题。我的问题是ParallelTopicModel中的估计函数是什么?

我在API中进行了搜索, 但没有描述。我也读过这个教程

有人能解释一下这个功能是什么吗?

编辑

这是我的代码示例:

0 投票
1 回答
133 浏览

nlp - 在 Mallet 主题建模中保留数字

我正在使用 Mallet 进行主题建模。我的输入文本中的大量单词包括字母和数字;例如,A54、D892。我刚刚注意到 Mallet 会自动删除数字,只保留单词中的字母。导入文本文件时,我什至不使用 --remove-stopwords 选项。有谁知道我该如何解决这个问题。

0 投票
1 回答
515 浏览

mallet - MALLET 主题建模的输入参数错误?

我尝试通过命令行使用以下命令运行 MALLET 主题建模:

我收到以下错误:

看来 MALLET 将逗号后的“2”识别为第 10 个参数。谁能让我知道我的输入是否错误以及如何纠正?

谢谢!

0 投票
2 回答
444 浏览

topic-modeling - Mallet 主题模型 - 与序列化文件不一致的结果

我用 Mallet 训练了一个主题模型,我想将其序列化以备后用。我在两个测试文档上运行,然后反序列化并在同一个文档上运行加载的模型,结果完全不同。

我保存/加载文档(附加代码)的方式有什么问题吗?

谢谢!

的定义printProbabilities()

0 投票
2 回答
665 浏览

java - MALLET Java API 导入数据

我正在尝试使用 Java API 进行主题建模。软件包提供了一个方便的示例。但是,鉴于我的数据量要大得多,我认为从一个文件中全部导入它是不切实际的。

我查看了另一个 MALLET 问题中链接到的 powerpoint 演示文稿,发现了一个称为 FileIterator 的东西,我相信我应该能够使用它来代替他们示例 Java 代码中使用的 CsvIterator。但是,我不确定我是否正确使用它。我尝试用它运行我的代码,但它在刚刚创建 FileIterator 的行上花费了不切实际的大量时间。我还没有深入研究 MALLET 代码来剖析这个问题;我想其他人可能已经知道更多了。我可以只传递一个目录,其中包含多个存储文档本身的目录吗?

然后我也有可能一次给它太多数据。

所以我的整体问题实际上分为两部分:

1) MALLET 可以在多大的范围内发挥作用?我有大约 500,000 个 6 行文档,我想提供主题。首先使用 MALLET 是否可行?

2)如果上面的答案是可行的,那么用 MALLET 导入这些数据的最佳方法是什么?如果使用 MALLET 不可行,建议我还能使用什么?


编辑:我确实能够使用 FileIterator,但它的用法并不像我想象的那样。做我想做的最简单的方法是将包含一个实例的所有单个文件放在一个目录中。然后我可以将此目录提供给 FileIterator,它会像 CsvIterator 一样工作。

至于可扩展性,我能够在合理的时间内运行大约 10,000 个短文档,但由于 LDA 同时考虑所有文档,我认为一次对所有文档执行此操作是不可行的。但是,MALLET 中的 TopicInferencer 类将允许我将尽可能多的文档合理地放入模型中,然后根据其余文档推断主题。这足以满足我的需求。

0 投票
1 回答
100 浏览

java - 在 MALLET Java API 中,为什么 Input2CharSequence 管道不能输入 CharSequenceLowercase() 管道?

当我尝试连续使用这些管道时,出现错误:

线程“main”中的异常 java.lang.IllegalArgumentException:CharSequenceLowercase 需要一个字符串,找到了一个类 java.lang.StringBuffer

我在 MALLET 中没有看到任何可用的管道来解决这个问题。但在我看来 CharSequenceLowercase() 应该能够接受 CharSequence ...

0 投票
1 回答
129 浏览

java - MALLET 从文档分类器中获取最具影响力的功能

我按照此处的 MALLET 示例构建了一个文档分类分类器http://mallet.cs.umass.edu/classifier-devel.php

我接下来想做的是为每个类获取最有影响力的特征。我确信这很简单,但我无法从 Java 中找到如何做到这一点。

任何帮助表示赞赏。