问题标签 [ctree]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - partikit predict() 返回的行数少于缺少预测变量值的输入数据
我在partikit
使用缺失值数据训练的加权条件树模型时遇到问题。
我通过在每个周期为观察值赋予不同的整数权重来手动创建袋装树模型。
但是当我使用自举模型进行预测时,我注意到其中一些模型返回的值少于输入数据行。有趣的是,在输入数据的 299 行中,预测的数据长度为 299 或 289。289 是删除具有缺失数据的预测变量后的行数。
挖掘问题我发现它来自三个组件的交互:
- 在模型中使用权重;
- 预测变量中缺少数据;
- 在传递给的输入数据中使用字符变量而不是因子
predict()
如果仅缺少这三个条件之一,则不会出现问题,并且所有树都返回 299 个值。
这是数据:https ://www.dropbox.com/s/98oriv2msce4wu5/anonym_data.rds?dl=0 这是重现问题的脚本:https ://www.dropbox.com/s/5y7g2dwt2838pbp/test .R?dl=0
r - ctree 忽略具有非语法名称的变量?
我想知道partkykit::ctree
函数是否会忽略具有非语法名称的变量,或者我是否遗漏了什么?
玩具示例:
显然x1
是最好的“预测器” Y
:
但是当我将其名称更改为非语法名称时,它似乎在树构造过程中被忽略了:
你能建议任何方法来克服这种行为('因为我真的 - 真的 - 真的希望x 1
用作一个名字,不要问为什么)?
r - 如何在 r 中构建一棵树?
我正在处理学生表现数据集,我收到此消息错误
trafo 中的错误(data = data,numeric_trafo = numeric_trafo,factor_trafo = factor_trafo,:不支持数据类“字符”另外:警告消息:在 storage.mode(RET@predict_trafo)<-“double”:强制引入的 NA
从这段代码,我不知道为什么?
r - 使用派对工具包、插入符号、食谱时“出现问题;所有准确度指标值都丢失”
我正在尝试训练大约 15 个机器学习模型,使用食谱(用于一致的预处理)和插入符号(用于一致的训练)。唯一两个始终给我错误“有问题;所有准确度指标值都丢失”的模型在partykit 包中——cforest 和 ctree。下面我使用来自 mlbench 的 PimaIndiansDiabetes 数据集显示错误。
下面是方法 ctree 的代码
我将衷心感谢您的帮助!
decision-tree - 如何提取partykit::ctree()的终端节点的拆分规则?
我已经用 partykit::ctree() 函数安装了一个非常大的决策树,现在需要找出基于哪个标准,树决定一个新样本进入它预测的终端节点。有它的功能吗?
r - 我可以将 ctree 拆分规则和终端节点图存储在表中吗?
我想创建一个表格来总结条件推理树(ctree)的拆分规则,以便每个预测变量位于单独的列中,并且每一行都是一个终端节点,每个预测变量都有相应的值。例如:
这导致了这棵树:
并以如下方式存储结果:
另外,我想在最后一列中嵌入在终端节点处产生的每个图,但我正在努力寻找一种单独存储图的方法。可能吗?
r - Ctree R 函数不适用于我的 for 循环
我想为循环制作一个列表,而不是像下面这样for
使用它。ctree
但我不能。我得到了一些错误,例如“不支持字符”,即使我将列表更改为factor
我想val
用列表改变变量,y
forfor
循环。
有没有办法让它工作?
r - ctree CART 条件树中的权重与权重 (party::ctree)
条件购物车中的“权重”和“权重”是什么?
我正在使用 CARTS 通过递归分区来分析一个小数据集(N=70)。具体来说,ctree 函数形成了 R 中的派对包。
我对什么是“权重”和“权重”有点困惑。据我了解,他们将每个节点的最终观察次数称为“权重”。但是,也可以将“权重”设置为具有条件树的模型中的重要性度量,我称之为“统计权重”。
我将一个分类变量设置为“统计权重”,我不确定软件在后面做什么,但是每个节点的样本大小(N =“权重”)突然比初始值大 5.5 倍(N = 400)一,总样本量(N = n1+n2+n3..))取决于最小桶和最大深度。我认为该模型只会考虑此类变量的可重复性并在模型中对其进行权衡。我理解为什么节点的样本大小会有所不同,但我没想到总 N 是可变的。
我已经多次阅读了patry手册,还尝试了partykit包。我读了又读,这些概念可能得到了解释,但是在推理树中添加“统计权重”时,我对获得如此大的样本量(“权重”)感到困惑。
prediction - 使用测试和训练集 ctree 进行预测
我正在尝试使用 R 中的条件推理树来获得一种基于使用 ctree 获得的类型/拆分预测的反事实分布。
我正在使用以下代码:
框架摘要如下:
我正在将 ctree 拟合到火车数据上,并对测试进行如下预测:
但是,对于国家 IT,我的预测长度和测试数据的长度不匹配。具体来说,对于 405 个观察的测试数据,我只有 108 个预测。关于我做错了什么的任何想法以及这种不匹配的原因是什么?
感谢您的支持!
r - 创建模型后的 R 预测
运行后出现以下错误
我看不到让它正确出现的方法。
checkData(oldData, RET) 中的错误:新数据的类别与原始数据不匹配