问题标签 [mallet]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 如何在 MALLET 中获取 SVM
我已经使用 MALLET 一段时间了,我想使用 SVM 分类器训练数据。有没有办法在 MALLET 上获得 SVM。我按照SVM on MALLET的说明进行操作,但没有太大帮助。先感谢您。
stop-words - Mallet - 主题建模 - 停用词错误
虽然我在使用 MALLET 进行主题建模时添加了额外的停用词列表和默认停用词列表,但主题模型中出现了一些停用词。例如“ın”、“ıf”、“ıt”。如何确保此停用词不出现在主题模型中?主题模型如下。
0 5 ıt 时间 房间 门 房子 人 眼睛 事情 晚上 女人 一天 让 女孩 面对 母亲 声音 汽车 回家
1 5 ıt ın fact sense point experience order form 人类行为 共同的一般宗教法律部分更改编号 案例证据
2 5 时间地点工作水长切割 ın 方形大顶房屋侧建机器建筑粘土片设计
3 5 学校人 ın 发展 国民 美国 成员 社会 计划 系统 经济 团体 问题 教育 班 学生 工作 政策 儿童
4 5 年纽约周家庭音乐美国城市之家总统走读学校俱乐部威廉秀白日家庭之夜
5 5 it 时间火脚河长路边英里游戏陆地跑打战争枪大球开始武器
6 5 手 水 白色 手 ın 黑色 食物 眼睛 脸 慢慢 太阳 冷 ıt 生活 红头 热 长 身体
7 5 ın 数字系统数据表面温度高低类型体积信息材料压力进给形式小结果显示方法
8 5 世界生活教会神战争时间伟大的死亡书英语 ın 世纪历史英国法语西苏维埃爱情精神
9 5 州年联合政府一般商业联邦部门法院税收成本百万公司秘书法案公共 ın 服务业
谢谢你的建议
java - 使用 Mallet 进行朴素贝叶斯分类:字母表是如何以及在哪里设置的?
我正在尝试在项目中使用 MALLET 机器学习库进行词义消歧。我的特征向量由目标标记左侧和右侧的 x 标记的固定大小标记窗口组成。MALLET 训练实例的创建方式如下:
在哪里
- "data" 是一个带有特征标记的 ArrayList<String>
- “senseID”是相应词义的类标签
- “instanceID”只是一个字符串,用于标识训练实例
- “文本”是原始源文本
我原以为 InstanceList 的 dataAlphabet 和 targetAlphabet 属性是在添加训练实例时动态构建的,但事实并非如此。因此,我的代码在上面最后一行出现 NPE 失败,因为 NB 训练器的 targetAlphabet 属性为 NULL。
查看 MALLET 代码(感谢开源),我可以看到不构造 Alphabets 的根本原因是我的数据和标签没有实现 AlphabetCarrying 接口。因此,这里的 Instance 类中返回 NULL:
我觉得这很令人困惑,因为文档说数据和标签可以是任何对象类型。但是上面的这个错误似乎恰恰相反,表明我需要构造一个实现AlphabetCarrying的特定数据/标签类。
我觉得我在这些字母表的概念层面上遗漏了一些重要的东西。另外,我不清楚数据字母表是否应该来自所有训练实例或仅一个。有人可以在这里解释错误吗?
干杯,
马丁
java - 我应该使用哪个迭代器从特征值对(Mallet api)创建实例?
我正在尝试运行 LDA 从 txt 文件中生成一些主题,如下所示:
文档1 标签1 森林=3.4 树=5 木=2.85 锤子=1 颜色=1 叶=1.5
文档2 标签2 森林=10 树=5 木=2.75 锤子=1 颜色=4 叶=1
文档3 标签3 森林=19 树=0.90 木=2 锤子=2 颜色=9 叶=4.3
文档4 标签4 森林=4 树=5 木=10 锤子=1 颜色=6 叶=3
文件中的每个数值都是每个特征(例如,森林、树)出现次数乘以给定惩罚的指示。
要从这样的文件生成实例,我使用以下 Java 代码:
然后,我使用指令 model.addInstances(generatedInstances) 将如此生成的实例添加到我的模型中。生成的输出如下所述。它包含由指令 model.addInstances(generatedInstances) 引起的错误。调试我的代码显示与模型关联的字母表为空。我使用了错误的迭代器吗?谁能帮我修复我的代码?
提前致谢。
machine-learning - Mallet 中 csvIterator 的参数是什么意思?
我正在使用槌主题建模示例代码,虽然它运行良好,但我想知道这个语句的参数实际上是什么意思?
java - 从 Mallet 中的 LDA-model 获取 word-topic-matrix
我正在用 Java 中的Mallet计算LDA的模型估计,并正在寻找term-topic-matrix。
计算模型并获得主题文档矩阵顺利:
现在我只能得到前n 个单词:
关于这个问题的唯一答案我只找到了这个问题的问题/答案是关于 Mallet 的命令行版本。
machine-learning - 如何获得特定主题的单词概率分布?
我正在使用 Mallet 进行主题建模,一切正常,除了我无法获得任何特定主题中单词的概率分布。
但是,我正在使用下面的代码来打印任何特定文档的主题比例(由下面的 docID 变量表示) - 是否有任何类似的代码可以获取 Mallet 中任何特定主题的单词分布?
mallet - Mallet 中 CRF++ 和 SimpleTagger 的功能差异
我正在做一些实验来比较 Mallet 中 CRF++ 和 SimpleTagger 之间的时间性能。但是,运行后,我发现它们之间的精度存在差距,尽管我设置了相同的参数(L2-norm)。我试图通过打印从 CRF++ 和 Mallet 创建的功能来解决这个问题,但我不能用 Mallet 做到这一点。那么,CRF++ 和 Mallet 的功能有什么区别吗?如何打印出 Mallet 创建的功能?
c# - 在文档分类中应用 Mallet 作为二元分类器
我已经使用 Mallet 实现了一个文档分类工具,它将文档的每一页分类到某些类别。我也尝试过 Weka,但 Mallet 在这方面比 Weka 更聪明。我的方法如下:
- 将文档的页面训练到已知类别
- 测试几个样本文档 Mallet 是否识别某个类别的页面。这里 Mallet 与已知类别的测试集中匹配。
- 如果测试成功且令人满意,则使用分类器和槌文件在巨大的文档存储库上运行。
这部分已经以良好的成功率实施。
对于我未训练且与已知类别不同的文本文档应返回为 NO Match,Mallet 正在尝试从训练集中为 Mallet 未知的文档查找匹配项。
例如,我在一个文档中有 4 页。第 1 页属于 A 类,第 3 页属于 B 类。第 2 页和第 4 页不属于任何类。如何通过 Mallet 将第 2 页和第 4 页标记为“不匹配”?
请帮助我实现这一目标。让我知道我是否做错了什么或任何其他可以为我提供所需输出的工具。
topic-modeling - 使用主题建模 Java 工具包
我正在研究文本分类,我想使用主题模型(LDA)。我的语料库包含至少 24,000 个波斯新闻文件。语料库中的每个文档都是从新闻中提取的(关键字,权重)对的格式。
我看到了两个 Java 工具包:mallet 和 lingpipe。我已阅读有关导入数据的槌教程,它以纯文本形式获取数据,而不是我拥有的格式。有什么办法可以改变它吗?
还阅读了一些关于 lingpipe 的信息,教程中的示例是使用整数数组。大数据方便吗?
我需要知道哪种 LDA 实现更适合我?还有其他适合我的数据的实现吗?(在 Java 中)