问题标签 [predictive]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - sklearn - 预测每个类别的概率
到目前为止,我已经为另一篇文章和sklearn 文档提供了资源
所以总的来说,我想生成以下示例:
但是对于输出,我希望看到每个观察 3 列作为输出pred
:
以及在我的预测中出现的每个类别的不同概率。
我相信最好的方法Multilabel classification
来自我上面提供的第二个链接。此外,我认为跳入下面列出的模型multi-label
之一可能是个好主意:multi-output
但是,我正在寻找有更多信心和经验以正确方式做到这一点的人。感谢所有反馈。
-bmc
r - 如何在 R 中的数据集上使用 PC(由 PCA 产生)?
我是 R 学习者。我正在研究来自互联网的“人类活动识别”数据集。它有 563 个变量,最后一个变量是必须预测的类变量“活动”。
我正在尝试使用 R 的 CARET 包中的 KNN 算法。
我创建了另一个数据集,其中包含 561 个数字变量,不包括最后 2 个 - 主题和活动。
我在上面运行了 PCA,并决定我将使用前 20 台 PC。
我将这些 PC 的数据保存在另一个名为“newdat”的数据集中
现在我正在尝试运行以下代码:但它给了我错误,因为这个 newdat 没有我的类变量
我试图从原始数据中提取最后一列“活动”,并使用带有“newdat”的 cbind() 将其附加到 knn-fit (上图)上,但它没有被附加。
对如何使用 PC 有任何建议吗?
下面是代码:
我在下面的部分遇到了错误。我附上了错误:
r - 错误 R Studio 和 RGUI 遇到致命错误 - 崩溃。分类大数据集的预测建模
我正在研究具有 21 个属性的数据集。16 个是分类的,3 个是序数因子,2 个是日期/时间(目标变量)。行数为 14512。
我要实现的目标:这个数据集基本上是关于不同团队关闭的日常办公室事件,我们试图预测在某些预测变量的情况下将花费的时间。
我正在使用 R-Studio 进行分析。
完成的工作:所以我想使用 Knn 进行计算,并将所有预测变量转换为二进制虚拟变量,将目标变量转换为 A、B、C 分类。
问题:现在,一旦我应用了 knn 函数示例:
保持 k 为 1121(因为我们在数据集中有 14513 行,训练和测试数据也按 70:30 的比例划分)
R studio 崩溃并关闭说明 - 发生致命错误。
请建议任何其他方法来计算此数据或我应该使用的任何其他建模技术,以更适合此类数据的示例。
machine-learning - 某些数据集是否无法预测?
某些类型的数据集是否无法预测?
我自己当前的现实生活示例:我的目标是为交叉销售保险产品创建一个预测模型。例如,从汽车保险到健康保险。
我的数据集主要由特征数据组成,例如他们居住的州、年龄、性别、汽车类型等......
我尝试了各种不同的模型,例如 XGboosted Trees 到正则化逻辑回归,而 AUC 不能超过 0.65。
所以这让我想到 - 某些类型的数据集不是预测性的吗?你如何帮助利益相关者理解这一点?
machine-learning - 测试集和训练集有什么区别?
测试集和训练集有什么区别?
ios - 数组中的预测搜索以过滤搜索结果
我有一个结构如下的数组:
我正在以这种方式进行预测搜索并且无法获得结果:
这里 :
- fmdbArrayAdjust :包含整个响应数据的数组。
- text : 用户在搜索栏中输入的内容。
- filtersFmdbArray :我想在其中获取所有过滤结果的 nsarray。
如何修改我的搜索语句以获得结果。我想根据“名称”获取搜索结果。
r - R中的不平衡数据集,分类树和成本矩阵
我正在尝试创建一个分类模型来预测两个类别之一:“命中”或“未命中”。
数据集包含大约 80% 的“命中”,因此它是高度不平衡的,因此分类树(来自派对包的 ctree)等模型选择将所有结果预测为“命中”并获得 80% 的准确度。
我尝试了欠采样和 SMOTE 算法但没有成功。
当模型将“未命中”分类为“命中”时,如何更改成本矩阵以惩罚模型?
r - 如何测试 LRM 模型的显着改进
我使用rms package
Frank Harrell 构建了一个预测模型lrm function
。
我想比较这个模型与另一个(lrm-)模型相比是否对二项式事件有更好的预测值。
我使用不同的函数来anova(model1, model2)
比较伪 R^2,但它们都不适用于基于 lrm 的模型。pR2 function
pscl library
我怎样才能最好地查看我的新模型是否明显优于早期模型?
更新:这是一个示例(我想预测骨转移的机会),以检查大小或阶段(除了其他变量)是否提供了最佳模型:
r - 在 R 中为分类变量设置不同级别的常量
谁能解释如何在 r 中为不同级别的分类变量设置常量?
我已阅读以下内容:如何在回归中设置系数值;R,它很好地解释了如何为整个分类变量设置一个常数。我想知道如何为每个级别设置一个。
例如,让我们看一下 MTCARS 数据集:
这给了我以下输出:
如果我想将 cyl6 设置为 -.34 并将 cyl8 设置为 -1.4,然后重新运行以查看它如何影响其他变量,我该怎么做?
r - 负二项式输出?
我想知道是否有人可以就我运行的负二项式模型给我一些建议。基本上我试图通过各种分类变量和一些连续变量(例如权重1)来预测人数(数字)。样本组成数据如下(省略一些变量):
运行命令
我得到以下结果
由于估计值和显着性值的差异,我对这些结果有点吃惊。Weight1(数值预测器)具有非常低的估计并且非常显着,而 DesignationSSSI(分类预测器)具有更高的估计并且不显着。我知道,对于分类预测变量,它指的是基础类别,而对于 Weight1,它代表 Weight1 的单位增加。
有人对此有任何意见/建议吗?这些结果是否有意义?或者模型语法(等)中的某些内容可能指定错误?
非常感谢您的帮助!
达米亚诺