问题标签 [mallet]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
text-mining - 主题模型的正确槌类
我正在为 Java 项目使用Mallet库。
我有 15,000 个文档,每个文档有 400 个令牌。我尝试使用ParallelTopicModel
. 但我想要一组既包含单个标记又包含标记序列的主题(例如“Java”和“Java Developer”)。
我正在考虑使用 LDA-HMM。我可以使用什么级别的槌?
然后我会将每个主题变成贝叶斯网络的节点,以接收一个令牌或令牌序列作为证据,并进行推理。我可以为此使用哪个 Java 库?
提前致谢。弗朗切斯科
java - 在 Mallet 中更改目标字母:字母不匹配
我很难从 Mallet 开发人员列表中获得帮助,所以我在这里尝试。
我有一个 InstancesList,其目标字母表为 {A, B, C},我需要将目标字母表更改为 {A, NOT_A} 以进行另一次分析。
到目前为止,我有以下代码(改编自其他 Mallet 源代码),但我不断得到:
字母不匹配:Instance: [5976, null], InstanceList: [5976, 2]
有人对我如何将目标字母表从 {A, B, C} 更改为 {A, NOT_A} 有任何建议吗?
classification - 在 mallet 中训练分类器
我有一个具有以下格式产品名称的 csv 文件,
产品评论
现在使用槌我必须训练分类器,以便如果将测试数据集作为包含产品评论的输入,它应该告诉我特定评论属于哪个产品
mallet java api帮助将不胜感激
user-interface - 木槌有图形用户界面吗?
有人看过Mallet的 GUI吗?
谢谢
java - 错误:无法加载或找到主类语言
我是 Mallet 的新手
我已经在我的电脑上安装了 Mallet。我已经正确设置了类路径(我通过打印类路径来验证它)
我想执行以下命令 mallet import-smvlight file1 file2.mallet
每次我尝试运行命令时,我都会收到一条错误消息“错误:找不到或加载主类语言”
有人可以帮助我吗?我对此深感麻烦。
tagging - 用于自动主题标记的 MALLET - 带有训练数据
我有一个已标记的文档语料库。我有大约 400 个标签的固定列表 - 与不同的主题相关。每个文档都被标记了一个或多个标签和一个简短的标题。(我还有一个更大的标题列表——如果文档包含非常相似的内容,我经常会重复使用它)
我想创建一个界面,根据我标记现有文档的方式,为我添加到语料库的新文档建议标签/标题(来自我现有的列表)。
我已阅读有关概率主题模型 LDA 类的信息,当您没有任何现有的标记数据时,它看起来非常适合分析文本。但我看不出有任何方法可以整合我现有的工作。
任何建议,将不胜感激。
亲切的问候
斯瓦米
machine-learning - Mallet 训练模型加载
有没有人在加载以前训练过的模型时有运气?通过它的API看,CRFWriter 类是谜题的 1/2,但是你究竟是怎么做的 CRFRead(class doesn't exist)
谢谢您的帮助。
java - 使用 Java 中的 Mallet 在 LDA 中折叠(估计新文档的主题)
我正在通过 Java 使用 Mallet,但我不知道如何根据我训练过的现有主题模型评估新文档。
我生成模型的初始代码与Mallett Developers Guide for Topic Modeling中的代码非常相似,之后我只是将模型保存为 Java 对象。在稍后的过程中,我从文件中重新加载该 Java 对象,通过添加新实例.addInstances()
,然后希望仅根据原始训练集中找到的主题评估这些新实例。
这个 stats.SE 线程提供了一些高级建议,但我看不到如何将它们用于 Mallet 框架。
非常感谢任何帮助。
machine-learning - 如何使用 Mallet 命令行提示报告精度和召回分数?
我正在使用 Mallet 的 MaxEnt 分类器进行文本分类。Mallet 提供了使用命令行提示报告准确性和 F1 分数的能力。
有没有办法使用命令行提示报告精度和召回分数?
pos-tagger - Mallet CRF SimpleTagger 短语/多词
我是 Mallet 的新手,我正在尝试使用 mallet 简单标记器/CRF 并尝试使用短语 - 我尝试在 mallet 网站上查找文档并浏览用户档案 - 没有任何帮助。
我尝试训练槌进行简单标记,它的工作原理很好。这是我的数据的样子(请注意训练之间有一个换行符,表示它们是不同的集合)
样本训练数据:
我遇到的问题是当城市名称是多个单词时,说
请注意,在上述训练数据中,“新”是一个停止词问题
- 对于简单标记器,上述表示是否正常?如果不是,我如何表示短语?
- 如果不是如何表示数据,以便 SimpleTagger/CRF 可以使用前面的“n”个词来到达标签?即我输入的一种块