问题标签 [olsmultiplelinearregression]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何根据 r 中的最低工资回归失业
我有两个不同的数据集,一个具有各州的年失业率(列在单列下),第二个数据集具有每个州的最低工资。两者都只有 2003-2020 年之间的数据。
问题是
- 它们在不同的数据集中
- X 变量(最低工资)跨越 17 个不同的列
问题
- 如何从 2 个不同的数据集中回归数据
- 如何在不必输入 minwage$2003 + minwage$2004 + 的情况下回归 17 列。. . + 最低工资$2020
我试过这个,但同样,它非常低效。
unemp_minwage <- lm(unemployment_03_20$`U-3` ~ minwage$`2003` + minwage$`2004` + minwage$`2005` + minwage$`2006` + minwage$`2007` + minwage$`2008` + minwage$`2009` + minwage$`2010` + minwage$`2011` + minwage$`2012` + minwage$`2013` + minwage$`2014` + minwage$`2015` + minwage$`2016` + minwage$`2017` + minwage$`2018` + minwage$`2019` + minwage$`2020`)
更不用说我得到了这个错误代码:model.frame.default中的错误(公式=失业U-3
_03_20$〜minwage$ 2003
+:可变长度不同(找到'minwage$ 2003
')
然后我尝试只回归一年的最低工资,但得到了类似的错误。
建议?
statistics - 特征选择:随机森林与多元线性回归
我正在开发一个关于 python 的项目,我必须在其中找到能够在播放列表中取得成功的功能。我有一些变量,如歌曲数量、专辑数量、艺术家数量、流派数量、情绪数量以及类型+情绪数量。歌曲、专辑、艺术家等多达数千,而心情/流派的数量为 0、1、2 或 3,流派+心情的数量在 0-6 之间。因变量是每个播放列表的流/用户。
我无法解释某些模型。当我使用多元线性回归时,类型、情绪和类型+情绪数量的系数最大(大约 11、-15 和 -3),而其他较大范围变量的系数在千分之一(5e-3, 3e-3 等)。
然后,如果我在相同的特征上运行一个随机森林模型(我可以用变量范围做这个吗?)最重要的特征是歌曲、专辑和艺术家的数量,其值在 0.26-0.33 之间流派/情绪特征在千分之一。
我怎么知道其中哪一项是正确的解释?
r - 在 R 中创建一个循环以在回归中运行所有可能的分类变量(级别)组合
我正在尝试使用包含 1000 多种产品和 250 家零售商的销售数据集在 R 中运行不同的多元线性回归模型。我有兴趣查看每种产品和零售商组合的模型系数。我尝试对分类列使用虚拟变量,但它没有像我需要的那样产生系数的单独估计。如何使用迭代每个可能组合的 for 循环来实现这一点?
python - 使用多项式特征(度 = 1)和简单线性回归实现多变量线性回归给出 2 个不同的结果
我正在尝试使用两种不同的方法编写多元线性回归问题。一种是简单的,如下所述:
上面的代码给了我 0.46 的 MSE 和 '0.0012' 的 Y2 分数,这真的很不合适。同时当我使用:
使用 PolynomialFeatures 的 MSE 为 0.23,Y2 分数为“0.5”,这要好得多。我不明白使用相同回归方程的两种方法如何给出如此不同的答案。休息其他一切都一样。
python - 在 Python 中尝试 BackwardElimination 算法时出现“'float' 类型的错误没有 len()”
我想知道是否有人可以帮助我解决我面临的这个问题。
首先:我正在使用 Visual Studio Code。Pandas、matplotlib(可能甚至不需要)、statsmodels、numpy 和 sklearn 都与代码一起安装pip install *
,其中 * 是各种库之一。
我有一个 .csv 文件,我从中获取一个 X 矩阵和一个 Y 向量。我正在使用反向消除算法来评估在我的变量(X 的每一列)和 Y 中的结果之间存在的多元线性回归。这是我的代码:
我所知道的是,当我使用 print(X_opt)
, print(y)
并且 print(features)
一切正常(所有值都正确加载和可视化)。
但是当我运行我的代码时,会弹出这个错误(带 * 表示文件位置根):
有人能帮助我吗?我在任何地方都找不到解决方案。
谢谢!
r - 手动开发杠杆统计
我目前有以下df
带有回归方程的数据框
regression_eq <- -0.09999975 * df$x + 1.999999 * df$y
并试图手动确定杠杆点。我现在已经审查了许多来源,但仍然卡住了。我知道通常您会使用该lm
功能然后开发诊断图,R
但希望在我单独开发结果时手动执行此操作。
如果可以手动转换,R
请告诉我,因为我发现了迄今为止我不确定的结果,并想澄清它们是否正确。
提前致谢。
python - 我应该如何在 python 的多元线性回归中解释为负常数?
我有一个数据集。部分数据集如下图所示:
net_sales_my company:我公司的净销售额 net_sales_others:竞争对手的净销售额 pro_unit_my_firm:我公司的促销销售额 pro_unit_others:竞争对手的奖金销售额
我想做的是找到促销销售对净销售额的影响。为此,我使用了我在下面指定的多元回归代码(在 python 中)。
结果总结为:
我对这个结果的解释如下:如果你推销 1 个单位,你的销售额就会增加 5 个单位。但; 负常数值是什么意思?正常吗?我是否设置了错误的模型?
我还分享了收益率的散点图以提供帮助:
python - statsmodels 的多元回归测试中 p 值为 0.00 的可能原因是什么?
我正在使用 statsmodels 进行多元回归测试。我非常有信心数据中存在关系,无论是从我通过其他来源和绘图已经知道的数据,但是当我使用 statsmodels 进行多元回归测试时,p 值显示为 0.000。我对低 p 值的解释是没有关系。但是,0.000 的值似乎更像是某些计算失败了,因为我假设仅统计噪声就会给我一个至少 0.1 的低 p 值。
当数据中明显存在关系时,计算没有错误但给出 0.000 的 p 值的多元回归测试可能是什么原因?
编辑:
我不确定这是统计问题还是代码问题。因此,如果有经验的人statsmodels
能告诉我我是否正确使用它,那将非常有帮助。如果就这是一个与数据相关的问题达成共识,我将在此处关闭此问题并按照评论中的建议在交叉验证上重新打开它
在下图中,我绘制了自变量与因变量的关系。我认为这表明存在某种关系: 但是当我进行多元回归测试时:
... p 值显示为 0.000:
这是我的熊猫数据框的样子:
请注意,我实际上使用了多个变量,因此是多元回归,但为了简洁起见,我在这里只使用了一个。
python - 什么是 TSLM 在 python 中相当于 R?
python中的OLS在不考虑时间戳的情况下进行多元线性回归。什么是 Python 中 R 的 TSLM 的等价物,它考虑了时间戳。