问题标签 [predictive]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何从数据框开发简单的预测模型?[蟒蛇/R]
我试图弄清楚如何从数据框中开发一个简单的预测模型,所以我可以根据 2 个输入预测未来的值。我将在下面进一步解释。
我有以下数据框:
就上下文而言,该数据框显示了在城市热岛缓解的背景下城市绿色空间的冷却效果。对于每个 ID(每个绿地),我记录了绿地的面积,然后以远离绿地 30 米的距离为每个绿地的“冷却强度”值,从“0”开始" 0 米处的列,这是该绿地多边形边界内绿地本身的冷却强度。
我正在尝试利用 python 或 R,以便我可以获取此数据帧并生成预测模型,无论是线性、对数、多项式等,以便我可以仅基于 2 个输入预测每个距离处的冷却距离,面积和每个绿地的冷却强度(“0”列)。预测模型方程需要代表数据框中包含的所有绿色空间(在本例中为 3 个)。
这样做的目的是,如果向我提供其他绿色空间的数据框,并且只提供每个绿色空间的面积及其冷却强度,我就可以预测/预测每 30 米距离处的冷却强度远离绿地。模型方程的目的是填写以下数据框:
这可以在 python 或 R 中完成吗?这里的主要挑战是如何解决对 2 个输入、绿色空间的面积及其冷却强度的需求。
machine-learning - 是否有类型的预测模型可以有效地处理部分特征集以进行预测?
假设我想预测一辆二手车的价格。我有一组 50 个功能,其中许多分类/数字变量有时可能不可用/为空,但假设 50 个功能中有 20 个始终可用。一种方法是仅使用这 20 个来创建价格预测模型。但是,我知道(来自领域专业知识)使用其他 30 个“稀疏”变量可以大大提高预测能力,只要它们可用。是否有一类更适合此任务的通用预测模型,其中每个预测可能有不同的特征子集可用?还有其他方法可以考虑吗?
例如,我应该尝试其中的任何一个吗?
- 使用某种方法填充空值,无论是简单的方法还是基于预测不可用特征的可用特征的子模型。
- 假设大多数数据可以分为 5-10 个不同的可用特征子集。我是否应该创建 5-10 个单独的模型来适应每个可用特征的子集,然后动态选择要预测的模型?
感觉应该有比上述两种更好/更有效的方法,如果有人能指出我正确的方向,我将不胜感激。
classification - Pycaret:使用 cross_val_predict 堆叠具有“时间序列”错误的模型
ValueError:cross_val_predict 仅适用于分区
语境:
当使用 'timeseries' 交叉验证训练 3 个模型,xgboost、catboost 和决策树,然后使用 'lr' 作为叠加层将它们堆叠在一起时,pycaret 会产生错误。这不会是 kfold 交叉验证,只有“时间序列”。
在此处查看错误详细信息:
python - Choosing a target variable in customer churn prediction?
Hello I am doing a school project where we have to use churn data. We have to use multiple linear regression for this. My question is can you use the Churn column for a target variable or is that better used for logistic? Because when I run a stats model ols, my r squared is around .369.
python - 在 python 中从头开始构建预测模型
我有一堆文本,我正在用 python 分析这些文本,以便生成一个能够详细说明人类文本的预测模型。
对于这个任务,我生成一个字典,其中包含输入中出现的每个单词,并将其指向另一个字典,其中包含后面的每个单词及其出现次数,因此我可以进行加权选择。
在伪代码中:
尽管该方法很简陋,但它的效果非常好,因此我尝试通过保存先前单词的预测以影响到下一个单词的预测来改进它:
但令人惊讶的是,这并不像只考虑下一个单词那样有效。在最后一种情况下,预期输出将是
但它经常产生
在以前的更基本的实施中没有经常发生的事情。那么我的新方法有什么不好的地方,还是我的代码有什么不好的地方?
我的意思是考虑超过下一个词进行预测是一种不好的方法?
rapidminer - 哪个多项式分类模型将在 RapidMiner 中产生最高准确度(干净数据、分类标签)
在我最近的任务中,我们的任务是构建一个模型来预测汽车零售公司的二手车价格。给定的数据已经被清理,目标变量是 6 个级别的响应(6 个不同的价格范围)。到目前为止,我最好的模型是一个梯度提升模型,它产生了 67.7%,最大深度为 5 和 100 棵树迭代(在参数调整中受到限制,因为过程需要很长时间才能运行)。我使用了RapidMiner。
我的问题是:还有其他方法可以提高保留数据的准确性吗?通过调整其他参数或完全不同的模型?
任何帮助深表感谢 :)
Ps:试图附加数据集但无法弄清楚如何。
r - 为什么这个“Tidymodels”网站示例的预测小于原始数据?是因为log10吗?
在此示例中,https://www.tidymodels.org/learn/models/parsnip-ranger-glmnet/,如果您查看data(ames)
,原始数据集中列出了几个销售价格,例如215000, 105000, 172000
。在随机森林示例中,他们的预测输出如下:
和比你预期Sale_Price
的.pred
房子要小得多。
我以为是因为log10
在
但是当我尝试撤消 log10 以获得更实际的销售价格时,我认为这是通过求幂来完成的,它似乎并没有解决这个问题。例如,我对列或单个观察取幂exp(5.33)
,得到的结果与数据中的原始s184.9342
不相似。有人可以解释如何将其转换回原始数据等“常规”值,以及为什么会发生这种情况?谢谢!Sale_Price
ames
215000, 105000, 172000
ames
python - 我试图了解下面预测模型的形状值。请帮助我理解价值和解释器的o / p是什么意思?
o/p: 100%|====================| 4778/4792 [03:26<00:00]
o/p: 数组([0.5763, 0.4237])
(虽然通过摘要图,我了解每个特征对模型的贡献是什么)(请解释一下输出均值(4778/4792 和数组([0.5763, 0.4237])中的这个数字是什么))
r-caret - 用于创建模型的 R 包,以帮助确定下一个时间段内表现最佳的资产
我有 10 项资产(P_1 到 P_10)和过去 700 周的每周回报。
我正在 R 中寻找一种方法,看看是否有一个模型可以根据历史回报创建,以预测哪些资产在接下来的每周甚至每两周期间表现最好。
我玩过 Caret 包,但到目前为止还没有任何东西可以为我工作。