问题标签 [rapidminer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3478 浏览

performance - 如何使用 Rapidminer 在测试集上进行测试?

我正在使用 Rapidminer 进行分析。我在几个模型上使用了交叉验证来获得最佳工作模型。现在我想使用这个模型在一个单独的测试集上进行测试,我使用拆分数据来估计性能。

如何使用测试集?据我所知,所有的验证模块都使用了创建模型的训练集。我可以使用哪种性能度量来获取模型和我的测试集?

0 投票
2 回答
28116 浏览

machine-learning - 快速矿工:如何向数据集添加“标签”属性?

我想将决策树学习算法应用于从 CSV 导入的数据集。问题是决策树块的“tra”输入仍然是红色的,说明“输入示例集必须具有特殊属性'label'。”。如何添加该标签?它是什么?我已经玩了一段时间没有结果。任何帮助表示赞赏。

附录:列的标题已被正确推断,所以我不知道“标签”是什么。

0 投票
1 回答
3268 浏览

rapidminer - 如何将多个excel文件导入Rapidminer

我正在尝试一次将一个包含三个 excel 文件的文件夹上传到 Rapidminer。我需要使用什么运算符来执行此操作(无需选择每个运算符并使用read excel运算符)?

0 投票
1 回答
163 浏览

rapidminer - 按顺序存储带有名称的文本

我正在使用 RapidMiner 5 GUI,我想将属性的所有值存储在不同的文本文件中。但是,如果我使用任何写实用程序,如写或写文档,它要么覆盖数据,要么给出错误。

我想将所有值存储在带有序列或附加内容的不同文件中。

有什么办法吗?

0 投票
1 回答
1859 浏览

rapidminer - 创建新属性

在 rapidminer 中,我有一个数据集,其中包含一个名为 address 的属性,其中包含属性地址,我需要做的是创建一个新属性,该属性仅包含每个属性地址中的最后 3 个单词。即 231 新路爱尔兰都柏林郡我想要的是新属性中的都柏林郡爱尔兰。任何人都可以帮助我完成这个过程,因为我对 rapidminer 非常陌生。我曾尝试使用函数表达式选项通过生成属性过程来做到这一点,但没有成功。

0 投票
1 回答
204 浏览

xpath - Java 中的确切 XPATH 位置

我正在尝试返回准确的 XPATH 查询表达式,以便可以使用 rapidminer 对站点进行数据挖掘。我需要一个查询来单独隔离每一行:

2012 年 7 月 11 日星期三

巨魔

9999999999999

07.11.12

提交的内容文件

2012 年 11 月 20 日星期二下午 1:12

到目前为止,我只有//td[@class='select']/text()

注意:值会发生变化,因此查询需要特定于位置。

对于每个值,六个单独的查询是什么?

0 投票
2 回答
1746 浏览

rapidminer - 无法在 Mac OS 中启动 RapidMiner 的图形用户界面

我无法通过双击 lib/rapidminer.jar 来启动 rapidminer。我也试过 java -jar lib/rapidminer.jar 也不起作用。

我试过./scripts/rapidminer了,快速矿工开始了

我也想启动 GUI 我也试过:./scripts/RapidMinerGUI

请帮我在 Mac 中运行 rapidminer gui。

0 投票
1 回答
424 浏览

mysql - 导入 Rapidminer 时格式化向量

我有一个 TFIDF 向量,它保存在数据库内的 MYSQL 表中,该表具有以下架构:

所有文档的向量垂直位于同一张表上,并按docid字段区分

我想将它们加载到 RapidMiner 中,以便为 pos 和 neg 类构建分类器,据我所知,RapidMiner 中的分类器模型接受的格式是每个文档水平地连续表示,如下所示:

我可以编写一些代码来完成这项任务并将它们保存在 CSV 文件中,然后将它们上传到 rapid miner,我希望在 rapid miner 中执行更快的任务。通过使其接受第一种格式或将其更改为第二种甚至是 MYSQL 查询来做到这一点。

考虑到向量表非常大(大约 500 mb),因此可扩展性是一个问题

0 投票
1 回答
531 浏览

java - 在 RapidMiner 进程中导入自定义类

我在 java 中制作了一个自定义 Stemmer,我需要一个操作符来处理这段代码。如何在 rapidminer 5 中导入自定义 Java 类?

谢谢!!!

0 投票
2 回答
244 浏览

data-mining - 如何从大型数据库中分类出一个小而奇特的子集?

我必须在包含有关保险单的信息的数据库上执行数据挖掘任务。每个元组表示有关单个策略的数据,以及有关发布它的机构、它所指的客户和其他字段的信息。它就像假设表策略、客户和代理之间的产品。字段如下:

保单类型、身份证号码、保单状态、产品描述、产品组合、签发日期、生效日期、到期日期、保单期限、贷款期限、取消日期、取消原因、总保费、分路器保费、ID合作伙伴、ID代理、国家代理,ID 区,代理潜力,性承包商,出生年份承包商,工作承包商,性别被保险人,工作被保险人,出生年份被保险人,产品区域,法律形式,ID 声明,年份声明,状态声明,供应声明,付款声明

这是一项学术任务,我们的教授希望我们确定客户流失率、交叉销售和追加销售。我不太熟悉该领域,因此我在维基百科上查找了这些术语。我从流失率开始,在我看来,在这种情况下,我必须描述保单状态设置为“已取消”且取消原因为“客户取消”的客户的属性。

使用 Rapid Miner,我尝试应用决策树和规则挖掘,但感兴趣的子集非常小,以至于输出模型尽管总体上具有良好的准确性,但在预测取消策略方面的准确性非常非常差。发生这种情况是因为取消政策的子集非常小。我还尝试将 MetaCost 运算符与给定的成本矩阵一起应用,其中错误分类已取消策略的成本相对于其他策略高得离谱(比如高出一百万倍),但这根本没有改变结果。

我现在最好的选择是使用顺序覆盖算法进行规则挖掘,但是 Rapid Miner 没有实现它,我必须手动编码。

您对如何为一小部分已取消的保单建立一个好的模型有什么建议,以便我们可以使用它来识别将来可能取消保单的客户?

注意:由于它来自真实来源,尽管是匿名的,我不能透露数据库或其中包含的任何数据。