问题标签 [mallet]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
314 浏览

text-mining - 主题模型的正确槌类

我正在为 Java 项目使用Mallet库。

我有 15,000 个文档,每个文档有 400 个令牌。我尝试使用ParallelTopicModel. 但我想要一组既包含单个标记又包含标记序列的主题(例如“Java”和“Java Developer”)。

我正在考虑使用 LDA-HMM。我可以使用什么级别的槌?

然后我会将每个主题变成贝叶斯网络的节点,以接收一个令牌或令牌序列作为证据,并进行推理。我可以为此使用哪个 Java 库?

提前致谢。弗朗切斯科

0 投票
1 回答
1211 浏览

java - 在 Mallet 中更改目标字母:字母不匹配

我很难从 Mallet 开发人员列表中获得帮助,所以我在这里尝试。

我有一个 InstancesList,其目标字母表为 {A, B, C},我需要将目标字母表更改为 {A, NOT_A} 以进行另一次分析。

到目前为止,我有以下代码(改编自其他 Mallet 源代码),但我不断得到:

字母不匹配:Instance: [5976, null], InstanceList: [5976, 2]

有人对我如何将目标字母表从 {A, B, C} 更改为 {A, NOT_A} 有任何建议吗?

0 投票
1 回答
2365 浏览

classification - 在 mallet 中训练分类器

我有一个具有以下格式产品名称的 csv 文件,
产品评论

现在使用槌我必须训练分类器,以便如果将测试数据集作为包含产品评论的输入,它应该告诉我特定评论属于哪个产品

mallet java api帮助将不胜感激

0 投票
1 回答
995 浏览

user-interface - 木槌有图形用户界面吗?

有人看过Mallet的 GUI吗?

谢谢

0 投票
1 回答
649 浏览

java - 错误:无法加载或找到主类语言

我是 Mallet 的新手

我已经在我的电脑上安装了 Mallet。我已经正确设置了类路径(我通过打印类路径来验证它)

我想执行以下命令 mallet import-smvlight file1 file2.mallet

每次我尝试运行命令时,我都会收到一条错误消息“错误:找不到或加载主类语言”

有人可以帮助我吗?我对此深感麻烦。

0 投票
1 回答
379 浏览

tagging - 用于自动主题标记的 MALLET - 带有训练数据

我有一个已标记的文档语料库。我有大约 400 个标签的固定列表 - 与不同的主题相关。每个文档都被标记了一个或多个标签和一个简短的标题。(我还有一个更大的标题列表——如果文档包含非常相似的内容,我经常会重复使用它)

我想创建一个界面,根据我标记现有文档的方式,为我添加到语料库的新文档建议标签/标题(来自我现有的列表)。

我已阅读有关概率主题模型 LDA 类的信息,当您没有任何现有的标记数据时,它看起来非常适合分析文本。但我看不出有任何方法可以整合我现有的工作。

任何建议,将不胜感激。

亲切的问候

斯瓦米

0 投票
1 回答
453 浏览

machine-learning - Mallet 训练模型加载

有没有人在加载以前训练过的模型时有运气?通过它的API看,CRFWriter 类是谜题的 1/2,但是你究竟是怎么做的 CRFRead(class doesn't exist)

谢谢您的帮助。

0 投票
2 回答
2367 浏览

java - 使用 Java 中的 Mallet 在 LDA 中折叠(估计新文档的主题)

我正在通过 Java 使用 Mallet,但我不知道如何根据我训练过的现有主题模型评估新文档。

我生成模型的初始代码与Mallett Developers Guide for Topic Modeling中的代码非常相似,之后我只是将模型保存为 Java 对象。在稍后的过程中,我从文件中重新加载该 Java 对象,通过添加新实例.addInstances(),然后希望仅根据原始训练集中找到的主题评估这些新实例。

这个 stats.SE 线程提供了一些高级建议,但我看不到如何将它们用于 Mallet 框架。

非常感谢任何帮助。

0 投票
1 回答
806 浏览

machine-learning - 如何使用 Mallet 命令行提示报告精度和召回分数?

我正在使用 Mallet 的 MaxEnt 分类器进行文本分类。Mallet 提供了使用命令行提示报告准确性和 F1 分数的能力。

有没有办法使用命令行提示报告精度和召回分数?

0 投票
1 回答
872 浏览

pos-tagger - Mallet CRF SimpleTagger 短语/多词

我是 Mallet 的新手,我正在尝试使用 mallet 简单标记器/CRF 并尝试使用短语 - 我尝试在 mallet 网站上查找文档并浏览用户档案 - 没有任何帮助。

我尝试训练槌进行简单标记,它的工作原理很好。这是我的数据的样子(请注意训练之间有一个换行符,表示它们是不同的集合)

样本训练数据:

我遇到的问题是当城市名称是多个单词时,说

请注意,在上述训练数据中,“新”是一个停止词问题

  1. 对于简单标记器,上述表示是否正常?如果不是,我如何表示短语?
  2. 如果不是如何表示数据,以便 SimpleTagger/CRF 可以使用前面的“n”个词来到达标签?即我输入的一种块