问题标签 [rapidminer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
rapidminer - 如何将 SentiWordNet 连接到 RapidMiner?
SentiWordNet 是一个文本文件。在 RapidMiner 中,“OpenWordNet Dictionary”只能用于访问 exe 文件。如何从 SentiWordNet 中提取情绪分数以进行进一步处理?
提前致谢。
machine-learning - 在 rapidminer 中将性能提取为宏
我正在使用 rapidminer 进行分类,我想将性能提取为宏并在测量性能后在输出上打印性能,
有什么办法吗?
java - 如何使用rapidminer添加新算子的参数配置?
在创建一个新的算子并对其进行测试后,我需要设置一些配置,例如频繁项集算法的 minsupp 的定义。实际上,我在我的 java 代码中定义了这个参数。当我在 Rapidminer GUI 中选择新的算子时,我喜欢在参数列表中查看 minsup 参数。
mysql - 在 RapidMiner 中读取 MYSQL 数据库
我正在尝试使用 RapidMiner 5 中的“读取数据库”运算符从 Mysql 数据库中读取“ExampleSet”。我似乎与我的数据库建立了工作连接,因为我注意到管理数据库连接窗口在提示时显示“连接正常”消息。
但是,当我尝试运行“读取数据库”进程时,我收到以下错误
“进程失败:查找 .javax.naming.NoInitialContextException 失败:需要在环境或系统属性中指定类名,或作为小程序参数,或在应用程序资源文件中:java.naming.factory.initial”
我不知道如何解释这个错误。我需要设置环境变量吗?
java - 如何使用 rapidminer 创建带标签的输出集?
我正在完成我们研究中一种新的数据挖掘技术的实施。
我想从 rapidminer 中包含的定义的度量和性能运算符中获利,所以我需要向性能运算符提供一个标记的数据集。
谁能帮我找到如何创建标记数据集?(我有标签和预测,我的问题是如何以标签集的形式创建输出数据表)。
rapidminer - problems of loading large csv file into rapidminer
I am trying to load a big csv file(about 18G) into rapidminer for building a classification model. The “import configuration wizard” seems has difficulty in loading the data. Therefore, I choose to use the “Edit parameter list: data set meta data information” to set up the attribute and label information. However, the UI-interface only allows me to setup those information column-by-column. My csv file has about 80000 columns. How should I handle this kind of scenario? Thanks.
export - Rapidminer Graph 查看疑似导出错误?
由于我的问题在 Rapidminer 论坛中仍未通过此地址得到解答:
我想在这里再次提出它,如果你有机会知道答案,请告诉我。
我注意到无论我们使用什么类型的扩展来获取导出(即 .pdf、.ps .jpg 等),导出引擎都喜欢当前视图的屏幕截图而不是整个输出空间,这导致了很多出口我研究的巨大决策树对我来说是个问题。
请有人就这个问题给我建议。
最好的,
阿米尔
java - 如何定义新的 exampleSetOutPut 格式?
在创建新的算子时,我们创建输入端口来接收数据和输出端口来传递数据。对于每个输入端口,我们将其数据类型固定为:
我们还定义了输出端口数据类型,如:
此条件将生成与输入相同的输出数据类型和格式。我的问题是如何定义与输入无关的新输出格式和数据类型。例如输入格式有数字数据类型和四个属性,我希望输出数据是字符串类型并具有新的两个属性。
java - ELKI 和 RapidMiner 中 LOF 实施的不同结果
我已经编写了自己的 LOF 实现,我正在尝试将结果与 ELKI 和 RapidMiner 中的实现进行比较,但所有 3 都给出了不同的结果!我正在努力找出原因。
我的参考数据集是一维的,有 102 个实数值,有很多重复。我会试着把它贴在下面。
首先,RapidMiner 的实现。LOF 分数与 ELKI 和我的结果大不相同;许多人带着无限的LOF回来。这个实现是否被验证为正确的?
我的结果与 ELKI 相似,但我没有得到完全相同的 LOF 值。通过快速浏览 ELKI 源代码中的注释,我认为这可能是因为计算 k 邻域的方式不同。
在 LOF 论文中,MinPts 参数(在其他地方称为 k)指定了最小编号。包含在 k 邻域中的点数。在 ELKI 实现中,我认为他们将 k 邻域定义为精确的 k 点,而不是 k 距离或 k 不同距离内的所有点。谁能确切地确认 ELKI 是如何构建 k 邻域的?还有一个私有变量允许点本身包含在它自己的邻居中,但看起来默认不包含它。
有谁知道带有用于验证目的的 LOF 分数的公共参考数据集?
---更多细节如下---
参考:ELKI源代码在这里:
http://elki.dbs.ifi.lmu.de/browser/elki/trunk/src/de/lmu/ifi/dbs/elki/algorithm/outlier/lof/LOF.java
RapidMiner 源代码在这里:
这是我的测试数据集:
4.32323 5.12595 5.12595 5.12595 5.12595 5.7457 5.7457 5.7457 5.7457 5.7457 5.7457 5.97766 5.97766 6.07352 6.07352 6.12015 6.12015 6.12015 6.44797 6.44797 6.48131 6.48131 6.48131 6.48131 6.48131 6.48131 6.6333 6.6333 6.6333 6.70872 6.70872 6.70872 6.70872 6.70872 6.77579 6.77579 6.77579 6.77579 6.77579 6.77579 6.77579 6.77579 6.77579 6.77579 6.77579 6.77579 6.77579 6.77579 6.77579 7.03654 7.03654 7.03654 7.03654 7.03654 7.03654 7.03654 7.03654 7.03654 7.03654 7.03654 7.03654 7.03654 7.03654 7.03654 7.10361 7.10361 7.10361 7.10361 7.10361 7.10361 7.10361 7.10361 7.15651 7.15651 7.15651 7.15651 7.15651 7.15651 7.15651 7.15651 8.22598 8.22598 8.22598 8.22598 8.5538 8.5538 8.5538 8.5538 8.5538 8.5538 8.5538 8.5538 8.5538 8.5538 8.5538 8.5538 8.5538 8.5538 8.5538 8.5538 8.5538 8.5538
例如,我得到第一个数字 (4.32323) 的以下 LOF 分数:
- RapidMiner:无穷大(MinPts 下限/上限设置为 10,100)
- ELKI:2.6774(k = 10 并且 distfunction/reachdistfunction 设置为默认值)
- 我的实现:1.9531
关于我的实现正在做什么的更多细节:
- MinPts 是 10,所以我找到了该点的 10 个不同的邻居。所以 4.32323 的邻域实际上是 48 个点,从 5.12595 到 6.77579。
- 这给了我 2.45256 的 k-distinct 距离
- 我正在计算第一个邻居的可达距离为 1.58277
- 我将样本的 LRD 计算为 1/(99.9103/48)
- 所有 48 个邻居的 lrd(o)/lrd(p) 之和为 93.748939
- 除以 48 得到 1.9531 的 LOF
rapidminer - RapidMiner 按顺序排列多个过滤器
我是 RapidMiner 的新手...我想做的是我有一个包含 10 个文档的列表,我使用 ProcessDocuments 运算符(子任务)-> 标记化这些文档...结果是一个10 x 800 的示例集,有 10 行(每个文档一个)和 800 个属性(每个令牌一个)。
现在我想按长度过滤 800 个令牌,我再次使用 ProcessDocuments 运算符(子任务)-> FilterByLength对由前一个 ProcessDocuments 运算符生成的世界列表...结果是一个 800 乘 700 矩阵...800 来自 800 个令牌之前的 ProcessDocuments Operator 和 700 减少的令牌集。
我想要完成的是一个10 x 700 的示例集,我可以将其传递给 Kmeans 聚类算子。我怎样才能做到这一点?
谢谢