问题标签 [rapidminer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
xpath - RapidMiner xpath 文本提取
在 RapidMiner 中,我试图从 div 类“描述”中提取数据。当我使用 Google XPath 导入 XML 测试语法时,它会返回适当的数据。当我在 RapidMiner 中尝试以下操作时,我得到空白结果:
这有效:
但我得到了所有的 HTML 标记数据。
我需要添加或删除什么?
在同一个文档上,我能够得到这个来返回预期的结果:
XML:
binary - RapidMiner - 二项式到整数的转换
我需要将数据传递给神经网络运算符。一些属性是二项式的,神经网络不接受二项式数据类型,但它接受整数。没有二项式到整数(数值)类型转换运算符。那么我该如何转换呢?
感谢您的回答
neural-network - Rapidminer - 神经网络算子 - 输出置信度
我有六个输入、一个隐藏层和两个输出节点(1;0)的前馈神经网络。该 NN 通过 0;1 值学习。应用模型时,创建了变量confidence(0)和confidence(1),其中每行这两个数字的总和为1。我的问题是:这两个数字(confidence(0)和confidence(1))是什么究竟是什么意思?这两个数字是概率吗?
感谢您的回答
svm - Rapidminer 中的 Libsvm 模块
Rapidminer 有一个基于 libsvm 的 SVM 模块。我如何知道它使用的是哪个版本的 libsvm?
我使用 Rapidminer 中的 libsvm 模块和 Libsvm 本身针对相同的数据集测试了 SVM 分类器,即使它们使用相同的参数设置,得到的预测分数也不同。
attributes - 适合该数据集的数据挖掘技术
我正在从事一个数据挖掘项目,并想挖掘这个数据集高等教育招生以获取有趣的模式或知识。我的问题是弄清楚哪种技术最适合数据集。
我目前正在使用 RapidMiner 5.0 处理数据集,并从数据中删除了两列(E550 - 参考年份,E931 - 学生总数 EFTSL),因为它们与分析无关。除了我用作id的 StudentID (整数)之外,其余属性都是名义上的。我目前正在对其进行分类(朴素贝叶斯),但希望得到其他人的意见,希望那些在这方面有更多经验的人。谢谢。
web-crawler - 爬取网站返回不良数据
我正在使用快速矿工从特定数据中抓取网站。问题是如果我尝试经常抓取网站,它会提供错误的数据。
如果我从其他 IP 地址看到相同的数据,它会显示与我在不同 IP 地址上抓取的数据不同的数据。
有什么办法可以克服这个问题吗?
database - 如何在 rapidminer 中读取数据库视图
有谁知道如何将数据库中的视图读取到 rapidminer 中?我建立了一个到 Microsoft SQL 服务器的连接,并且我正在使用读取数据库运算符,但它只显示表列表,而不是视图。已经设置好了,我可以使用 Access 看到它。我在 rapidminer 中工作时正在处理该视图,因此我需要一个指向它的实时链接,而不是在 rapidminer 中重新创建查询。有什么我遗漏的东西,还是 rapidminer 不支持视图?
classification - 使用 RapidMiner 设计聚类过程
我在机器学习或集群方面没有太多经验,所以我对如何解决这个问题有点茫然。我感兴趣的数据由 4 列组成,其中一列只是一个 id。其他 3 个包含数值数据,值 >= 0。我需要的聚类实际上非常简单,我可以手动完成,但稍后会变得不太清楚,所以我想从正确的过程开始。我需要 6 个集群,它们取决于 3 列(称为 A、B 和 C),如下所示:
在这个阶段,这些集群将洞察数据,为进一步分析提供信息。
由于我对此很陌生,我还没有充分了解进行聚类的各种算法,所以我真的不知道从哪里开始。任何人都可以建议使用合适的模型,或者我可以研究的一些模型。
statistics - Rapidminer 中哪些参数最适合决策树
我有一组具有 14 个常规属性的数据。我正在尝试从该训练数据中创建Rapidminer中的最佳决策树,以便我可以在评分数据上使用该树。
但是我不确定决策树使用哪些参数(例如:标准、最小增益、置信度等)?我也不确定我可以/应该将哪些其他运算符(如果有的话)应用于我的模型?
谁能给我一些关于什么最有效的一般提示?
我所拥有的数据是尝试确定是否有人开设了新的银行账户,他们的信用状况是否良好。我有信用状况、账户类型、历史、就业、性别、工作等信息。
谢谢你。
text - 使用rapidminer提取文本信息
我有一个文本数据列表,我想从中提取某些部分。我目前正在使用正则表达式来提取我想要的数据,但它开始变得非常复杂,因为每条记录都略有不同。有没有办法使用 Rapidminer 根据一些典型示例“学习”正则表达式?
例如,对于以下每条记录,我想将文本提取24
到18
两个新属性中:
我看过所有的文本处理视频,但没有一个显示如何做这种事情,我真的不知道从哪里开始。除了手动创建正则表达式之外,任何人都可以建议一种方法吗?