问题标签 [rapidminer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
316 浏览

cluster-analysis - 如何在质心基础聚类中重新聚类新实例?

我在患者数据集上应用了 k-mean、k-medoid 和 DBSCAN 等聚类算法。对于每个算法,RapidMiner 生成了集群模型(质心表和图表等)和集群集(显示哪些示例属于哪个集群)。现在我想要一些方法,当一个新病人来时,我想根据以前训练的模型为他分配一个集群。我对这样做的方式感到困惑..是这样的吗,我可能错了

对于新患者的每个属性值 - 来自质心表的属性值将患者属性的所有差异相加并取平均值。

然后为他分配相对于该患者的平均值最小的集群。

如果这是正确的方法,那么我将如何重新聚类,即当有新患者来时,我们的算法正在为他分配聚类,这很卑鄙。质心移动,然后我必须在每次插入记录时重新聚类。如何在我的场景中处理这个?

0 投票
0 回答
489 浏览

java - 我在输入 ENV 时看到的变量是否有更多的环境变量?

我正在尝试使 R 扩展RapidMiner工作,为此我必须遵循一些步骤,包括设置一些环境变量以确保 RapidMiner 能够看到Java 和 R 的位置。

要设置的两个环境变量是R_HOMEJAVA_HOME

我已经设置了这两个变量,当我env在终端上输入时我可以看到它们,但是当我运行 RapidMiner R 时,它不起作用。在日志中,我看到以下内容:

所以现在我想知道为什么 RapidMiner 不能像我一样读取我的环境变量。

RM有可能从不同的位置读取变量吗?无论如何我可以确定吗?

任何提示将不胜感激。谢谢!

0 投票
1 回答
1660 浏览

cluster-analysis - rapidminer:集群性能运营商..不同的值是什么意思?

我必须在 rapidminer 中使用不同的性能运算符检查各种聚类算法的性能。为此,我想知道以下几点:

  1. 簇数索引值显示什么是簇数性能算子的输出?
  2. 聚类距离和平均值内的 avg 的小值和大值是什么?在质心距离内意味着好的和坏的聚类?
  3. 我还想检查其他索引值,例如 Dunn 索引、Jaccard 索引、Fowlkes-Mallows 等各种聚类算法。但是 rapidminer 没有任何操作员,为此该怎么办。我没有使用 R 的经验。
0 投票
1 回答
624 浏览

classification - 具有许多参数的快速矿工格式化数据集

参数过多而无法作为列放入示例集中的问题。

我的问题任务是我的客户有一个唯一的 ID,他们有参数(二项式),我想预测某些目标变量的值,到目前为止只有一个但可能是多个。在我的测试用例中,我使用了以下输入数据集,查看元数据,每个客户都表示在一行中,参数在列中 - 只是通常的方式。

元数据:
角色 - 名称 - 类型
id - Customer_Id - 整数
标签 - 目标 - 二项
正则 - Para1 - 二项
正则 - Para2 - 二项
正则 - Para3 - 二项
正则 - Para4 - 二项
数据集:
*Customer_Id - 目标 - Para1 - Para2 - Para3 - Para4*
1 - M - 1 - 0 - 1 - 0
2 - V - 1 - 0 - 0 - 1
3 - M - 0 - 1 - 1 - 1

=> 使用朴素贝叶斯,我在有限维度的测试用例中得到了很好的预测结果。

实际数据集的问题:我有大约 100,000 个参数,而且这个数字正在增长很多。客户的实际活动参数数量非常少,因此表会非常大且稀疏。所以我的想法是使用以下数据集格式作为输入:
元数据:
角色 - 名称 - 类型
id - Customer_Id - 整数
标签 - 目标 - 二项式
常规 - ActivePara - 多项式
数据:
*Customer_Id - 目标 - ActivePara*
1 - M - Para1
1 - M - Para3
2 - V - Para1
2 - V - Para4
3 - M - Para2
3 - M - Para3
3 - M - Para4

但是现在我没有得到每个客户的一致预测,我得到的是这样的

*Customer_Id - Target - ActivePara - 目标预测
1 - M - Para1 - V
1 - M - Para3 - M
2 - V - Para1 - V
2 - V - Para4 - V
3 - M - Para2 - M
3 - M - Para3 - M
3 - M - 第 4 段 - V

但我希望/需要每个 customer_id 的目标预测保持一致。

我需要如何设置输入数据/模型才能得到结果!

非常感谢您的任何提示和帮助!!!

0 投票
1 回答
96 浏览

rapidminer - 如何查看 RapidMiner 测试结果中的每条记录?

执行验证时,数据集的一部分用于构建模型,然后在数据集中的剩余记录上测试模型。我需要查看测试过程中每条记录的结果,例如,对于分类任务,我需要知道哪个记录在测试阶段被分类为什么,以及哪些记录是用于测试的。谁能指出我在 RapidMiner 中可以找到测试记录及其结果表的部分?

谢谢!

0 投票
1 回答
662 浏览

classification - RapidMiner:在不重新运行现有训练模型的情况下对新示例进行分类

如何针对我的训练模型运行新示例的分类,而无需再次重新运行训练模型?

经过训练的模型需要一些时间来处理(1 小时),我想对新的观察结果进行分类,而不必每次都等待使用训练数据再次创建模型。

我以前从未将这两个流程分开,我总是将它们放在同一个流程流窗口中,因为我不知道要独立执行这些流程。

0 投票
1 回答
1261 浏览

rapidminer - 在 Rapid Miner 中将二项式转换为名义式

我导入了一个数据集,其中性别 (m/f) 被解释为“二项式”。如果我没记错的话,这意味着有一个映射 true/false 被分配给 m/f 两个值。

由于我需要找到关联规则,这是不正确的。

我的问题是:是否可以将二项式字段转换为标称,然后将其再次扩展为两个标称属性(一个用于男性,另一个用于女性),以便与“FP-Growth”和“创建关联”正确使用规则”运营商?

0 投票
1 回答
805 浏览

process - RapidMiner:存储(模型)操作员在此流程中的连接位置/方式

我在 RapidMiner 中创建了一个利用一些循环的流程。我不确定我的 Store Model 运算符应该连接到哪里,以便将通过此过程派生的模型参数保存到新过程中。

随附的示例将我的数据替换为一些示例数据,但是其余的过程是我对实际数据集的处理。

0 投票
1 回答
1997 浏览

r - Rapidminer R-Extension:无法加载本机库 jri.dll

我不确定这是否是解决我的问题的正确论坛。如果没有,请告诉我,并将在另一个中尝试。

由于这似乎是一个惊人的扩展,我正在尝试运行 Rapid Miner 的 R-Extension。现在一天多没有任何成功。我不知道如何帮助自己了,这就是我决定写这篇文章的原因。

启动 Rapid Miner 后,我收到错误消息:

无法加载本机库。

无法初始化 R 扩展。加载本机 R 库时出错。请检查 PATH、R_HOME 和 JAVA_HOME 环境变量设置。

原因:'C:\Program Files\R\R-3.0.1\library\rJava\jri\x64\jri.dll:找不到依赖库'


为了帮助你们帮助我:在下面的一些信息中,这可能是有用的。

系统信息

启动 Rapid Miner(控制台)后:控制台输出的一部分

检查 ...\x64\jri.dll 的措施

使用 Dependency Walker 检查 ...\x64\jri.dll 的依赖关系。

结果:模块 c:\windows\system32\IEFRAME.DLL 的延迟加载模块警告。

消息:警告:由于延迟加载依赖模块中缺少导出功能,至少一个模块具有未解析的导入。

!但是:可以将 rJava(版本:rJava_0.9-4)加载到 R 工作区中。用 RStudio 试用过。


而已!我不知道该怎么做才能摆脱这种情况。如您所见,我在stackoverflow中阅读了所有具有相同问题的帖子。但到目前为止没有任何帮助。有什么我没有考虑到的吗?

我非常感谢每一个帮助。如果您需要了解任何进一步的步骤,请告诉我。

提前致谢,

鲁迪

0 投票
1 回答
224 浏览

rapidminer - 我们如何在 RapidMiner 中看到可预测的标签?

我想知道我们如何才能看到使用 RapidMiner 的分类器给出的可预测标签?

我们可以将它作为聚类结果中的属性输出吗?

提前致谢!特尔玛