问题标签 [mallet]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1083 浏览

python - 将 Python 字符串传递给 Mallet 以进行主题建模

我正在使用 BeautifulSoup 构建一个文本语料库,该语料库与一些来自 HTML 的元数据一起收集。如果我可以从 Python 中调用 Mallet,并让它从 Python 字符串而不是目录中的文本文件中建模主题,那将非常有帮助。这样我就可以将 Mallet 定位的 n 个关键字放入每个文件中。

当我运行时,我收到一条消息说 Mallet 已被识别:

但是我在接下来的步骤中没有任何运气,甚至不确定 Mallet 是否接受除了保存的文件之外的任何内容。

我无法找到任何我能真正理解的文档。有人看过可消化的文档吗?(NLTK 书没有进入 Mallet)。我也很乐意学习 Python 中的任何其他主题建模方法,我可以在没有真正深入的 Python 知识的情况下操作这些方法。

抱歉,这是我的第一次牛仔竞技表演。

0 投票
1 回答
1721 浏览

java - 如何加载和使用使用 Mallet 训练的 CRF?

我已经使用 训练了一个 CRF GenericAcrfTui,它将一个写入ACRF文件。我不太确定如何加载和使用训练有素的 CRF,但是

似乎工作。但是,标签似乎不正确,并且似乎依赖于我作为输入传递的标签。 如何使用加载的 ACRF 进行标记?

这是我做标签的方式:

我看了一下就知道了GenericAcrfTui。我尝试过的一些事情:

  • 当我尝试给出不同的初始标签(“O”除外)时,结果标签发生了变化,但这无济于事,因为我无法猜测最初要给出什么标签,否则我不需要标注器。
  • 我试图根本不给出任何初始标签,但这只会导致异常,看来 Mallet 真的想要这些标签。

我注意到还有SimpleTagger可以用来训练CRF但我认为使用它来标记新输入我仍然会遇到同样的问题。

SimpleTagger使用来自或的 CRF 进行标记的任何帮助GenericAcrfTui都会有所帮助。

顺便说一句,我通常使用 CRF++,但对于这项任务,我想构建自己的图表,因为我正在使用依赖项解析功能。

0 投票
1 回答
1065 浏览

topic-modeling - MALLET 中主题模型的增量训练

根据 MA​​LLET文档,可以逐步训练主题模型:

“-output-model [FILENAME] 此选项指定一个文件来编写序列化的 MALLET 主题训练器对象。这种类型的输出适用于暂停和重新开始训练”

我想在一组数据上训练主题,然后用另一组数据增加模型。在两个训练步骤之后,我想输出两个数据集的状态(使用 --output-state)。这是我尝试这样做的方法:

在最后一个命令中,如果我添加“--input-model model”,则来自第二个数据集的数据不会出现在输出状态文件中。如果我不添加它,则输出状态文件中不存在来自第一个数据集的数据。

如果我尝试在代码中向模型添加其他实例:

我收到一个错误:

MALLET列表之前也有类似的问题:http: //permalink.gmane.org/gmane.comp.ai.mallet.devel/924,http : //permalink.gmane.org/gmane.comp.ai.mallet .devel/2139

那么主题模型的增量训练是可能的吗?

0 投票
2 回答
2172 浏览

regex - R 正则表达式中的槌错误:java.lang.NoSuchMethodException:给定参数没有合适的方法

我一直在关注如何在 R 中使用 mallet 创建主题模型的教程。我的文本文件每行有 1 个句子。它看起来像这样,大约有 50 句话。

这是我的代码:

除了代码的最后一行,一切正常

我不断收到此错误:

根据包,函数应该是这样的:

我相信它与 token.regexp 参数有关,因为它
documents1 <- mallet.read.dir(Dir)工作得很好,这意味着提供给 mallet.instances 的前 3 个参数是正确的。

这是我正在遵循教程的 git repo 的链接。 https://github.com/shawngraham/R/blob/master/topicmodel.R

任何帮助将非常感激。

谢谢,J

0 投票
1 回答
1155 浏览

lda - Mallet Api - 获得一致的结果

我是 LDA 和木槌的新手。我有以下查询

我尝试使用命令行运行 Mallet-LDA,并通过将--random-seed设置为固定值,我能够获得多次运行该算法的一致结果

但是,我确实尝试过使用 Mallet-Java-API,每次运行程序时都会得到不同的输出。我做了谷歌,发现需要修复随机种子,我在我的java代码中修复了它。我仍然得到不同的结果。

谁能让我知道我需要考虑哪些其他参数才能获得一致的结果(多次运行时)

我可能想在多次运行时添加该训练主题(命令行)产生相同的结果。但是,当我重新运行import-dir然后运行​​train-topics时,结果与前一个不匹配。(可能正如预期的那样)。我可以只运行一次import-dir,然后通过运行train-topics来试验不同数量的主题和迭代。同样,如果我想在使用 Java-Api 时复制相同的内容,则需要更改/保持不变。

0 投票
2 回答
940 浏览

topic-modeling - 主题建模和发现主题中的相似性

问题陈述:我有几个文件(20k 个文件)。我需要应用主题建模来查找相似的文档,然后分析这些相似的文档以找出它们之间的不同之处。问:谁能建议我任何可以实现这一目标的主题建模包。我正在探索 Mallet 和 Gensim Python。不确定哪个最适合我的要求。

任何帮助将不胜感激。

0 投票
1 回答
815 浏览

java - MALLET 主题建模:输入字符串

我有这个代码来导入文件.mallet:

但是如果我想手动切换每个实例,我该怎么办?我试过这个:

但它给了我一个错误!

编辑

我试过了,它似乎可以处理一个字符串数组:

0 投票
1 回答
566 浏览

java - Mallet java: get probability distribution of a documents collection

I would like to get a single probability distribution for a collection of documents, as I need to be able to use the KL-Divergence, is this possible?

In this example: http://mallet.cs.umass.edu/topics-devel.php with the method getTopicProbabilities() I get the probability distribution of each instance, but if I wanted to get a single distribution for a collection of documents?

Could this be the topic distribution of the documents?

0 投票
1 回答
834 浏览

lda - MALLET 主题中单词的排名

我对槌子比较陌生,需要知道:-槌子产生的每个主题中的单词是否以某种方式排序?- 如果是这样,主题列表中的排序(即)是第一个在整个语料库中分布最高的排序(即)是什么?

谢谢!

0 投票
2 回答
601 浏览

java - 无法运行 Mallet TopicModel

我正在尝试运行 Mallet 的主题建模,但出现以下错误:

我已经添加了所有的jar文件!你能告诉我这里有什么问题吗?

谢谢,