问题标签 [mallet]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1101 浏览

java - MALLET 主题建模 OutOfMemoryError

我使用 MALLET 进行主题建模。
http://mallet.cs.umass.edu/topics.php

首先,我尝试按照说明导入训练文档集。

我总是得到OutOfMemoryError,尽管我"bin/mallet.bat"根据下一页进行了更改。 木槌主题建模

我设置set MALLET_MEMORY=32G

我的数据集大小是 30GB。

电脑内存够用。

我收到以下错误。

我该如何解决这个问题?谢谢你。

0 投票
1 回答
1127 浏览

java - 在 Cygwin 上使用槌

我一直在 Windows 上将 Cygwin 用于 POSIX 环境。

但是,在使用 MALLET 工具包时,我在查找类时遇到了问题。例如:

我尝试将类路径包装在 bash 脚本中,`cygpath -pw $cp`但无济于事。

0 投票
0 回答
117 浏览

terminal - 用槌获得词主题概率

我正在通过终端使用木槌。我以单一文件格式导入了训练数据:

我已经使用 train-topics 命令创建了多种大小的主题模型。

我现在要做的是在相同格式的测试集上测试训练好的模型。更具体地说,如果可能,我希望将主题分配给我的每个测试文件,以及该主题和测试文件中每个单词的概率。如果有可能获得任何主题的每个单词的概率,那就太好了。

谢谢

0 投票
0 回答
301 浏览

machine-learning - 需要条件随机场、概念和术语澄清:马尔可夫顺序、转换、连通性

我正在使用 Mallet 来使用条件随机场。据我了解,CRF 有几种马尔可夫顺序,具体取决于节点的连接方式。图中是四分之三的顺序,从上往下的第一个顺序,第二个顺序。在此处输入图像描述

  1. 概念检查:我基本上对术语“马尔可夫顺序”、“连通性”和“过渡”感到困惑,因为它们似乎都指的是同一个概念。我相信如果有一条边连接它们,一个节点可以转换到另一个节点。这是它还是我错过了什么?

  2. 订单参数在 Mallet 中,我可以设置要使用的马尔可夫订单的参数,我认为它需要 1,2、0.75... 但它需要两个参数,它们解释为“主要和退避顺序” . 这是什么意思?

  3. 我的任务类似于顺序标记,这就是我尝试使用 CRF 的原因。我正在做的分类任务与前一个节点的分类结果高度相关。当我使用 SVM 完成这项任务时,我包含了“前一个节点标签”特征并进行了两阶段学习,我首先使用“前一个节点标签”的真值数据训练 SVM,然后使用预测结果训练另一个模型第一个分类器。但是在 CRF 中,如果我使用包含前一个节点标签的二阶,是否不需要这种学习或使用此功能?我希望我能清楚地解释这一点。

0 投票
5 回答
2107 浏览

topic-modeling - Mallet 主题模型示例无法编译

我想在我的 Java 中编译 mallet(而不是使用命令行),所以我将 jar 包含在我的项目中,并引用了来自:http://mallet.cs.umass.edu/topics-devel 的示例代码。 php,但是,当我运行此代码时,出现以下错误:

我不确定是什么导致了错误。有人可以帮忙吗?

}

0 投票
1 回答
239 浏览

topic-modeling - 截断 MALLET 中主题模型的标记

我想截断语料库中的所有标记,使其最大长度为 5 个字符。有没有办法在 MALLET 中设置 --token-regex 导入选项来完成这个?我目前用于导入文档的代码是这样的:

如果这在 MALLET 导入命令中是不可能的,我将不胜感激有关如何在 R 中执行相同操作的建议。

0 投票
1 回答
205 浏览

machine-learning - Mallet dirichelet 参数大于 1

我一直在使用 MALLET 来执行我的主题建模(LDA)。

我试图在一个数据集中发现 20 个主题结果如下(关键字列表对于这个问题并不重要):

我读过每行中的第二个数字(例如第 0 行中的 0.05013)代表 dirichlet 参数。我认为这个数字代表了主题的重要性(整个文档中的存在),我认为总数应该等于 1。

然而,这种情况并非如此!仅查看主题 18,其值为 1.0515。

有人可以解释一下这个参数真正代表什么以及为什么它对于特定主题高于 1 吗?

提前致谢

0 投票
1 回答
4308 浏览

java - 如何在 Java 中从外部 jar 中捕获异常

我正在尝试使用mallet library运行 LDA 算法。当我尝试使用一组参数运行 LDA 时没关系,但使用另一组参数时出现此错误:

我的代码如下所示:

如何捕获由外部 jar 引起的异常?我已经提出了这个问题,但它对我不起作用。任何想法?

编辑:

我的项目是一个在 apache tomcat 服务器上运行的安静的 web 服务。我尝试在 dopost 函数中调用 lda 算法。

编辑 2

Mallet 是一个开源库。所以我试图阅读代码,我找到了下面的代码。

我的网络服务:

那么如何处理在我的 Web 服务中产生 WorkRunnable 类的异常。我想把一个xml看起来像

`空

我已经阅读了很多这样的问题我没有找到解决方案

0 投票
1 回答
159 浏览

nlp - 在 Mallet 中使用预定义的主题

我希望使用 Mallet 按我定义的主题对不同的文档进行分类。我知道 Mallet 将首先确定主题,然后对文档进行分类,但我想跳过第一步,因为我已经有了一个主题列表,其中包含与之相关的单词。有什么方法可以使用我创建的预定义主题列表来使用 Mallet 对文档进行分类?

任何指导表示赞赏。谢谢!

0 投票
1 回答
508 浏览

mallet - 令牌正则表达式命令后的无穷大值错误

我正在尝试将该命令--token-regex '[\p{L}\p{M}]+',与用于导入文本的常用命令一起使用,以便木槌可以读取德语文本。不显示错误消息并创建一个新文件。然而,它是可疑的小。然后,train-topics用于运行主题模型,显示以下错误消息:

我一直在尝试使用不同的令牌正则表达式命令解决这个问题几个小时,但似乎没有任何效果,任何帮助都会非常感激。