问题标签 [regression]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
testing - 回归测试和部署策略
我想要一些关于部署策略的建议。如果开发团队创建了一个广泛的框架,并且许多 (20-30) 应用程序使用它,并且企业希望应用程序至少每 30 天更新一次,那么最佳部署策略是什么?
我问的原因是,如果 90% 的应用程序没有更改,那么使用每月部署更改的敏捷方法似乎有很多浪费(和风险)。我的意思是框架可以在一个月内改变,一些应用程序也可以。由于框架发生了变化,所有应用程序都应该进行回归测试。例如,如果有 10 个应用程序在一年中根本没有变化,那么这 10 个应用程序每个月都会进行回归测试,当时它们没有任何功能更改或热修复。必须对它们进行测试,仅仅是因为企业每个月都在滚动更新。
以及所涉及的风险……如果部署了一个关键任务应用程序,这需要几周时间,并且需要多个部门进行测试,那么期望必须不断地对该应用程序进行回归测试是否现实?
一种选择是使任何框架更新向后兼容。虽然这意味着应用程序不需要更改其代码,但它们仍然需要进行测试,因为底层框架发生了变化。而且涉及的风险很大;一个不断变化的框架(并部署这个框架)意味着任务关键型应用程序永远不能长时间享受相同的代码库。
这些应用程序共享相同的数据库,因此需要不断测试。我知道 TDD 和自动化测试,但目前还不存在。
有什么建议吗?
machine-learning - 对于既不是分类也不是回归的事物,正确的术语是什么?
假设我有一个基本上是分类的问题。也就是说,给定一些输入和一些可能的输出类,为给定的输入找到正确的类。神经网络和决策树是可用于解决此类问题的一些算法。然而,这些算法通常只发出一个结果:结果分类。
现在,如果我不仅对一个分类感兴趣,而且对输入属于每个类的后验概率感兴趣怎么办。IE,而不是答案“此输入属于 A 类”,我想要答案“此输入属于 80% 的 A 类,15% 的 B 类和 5% 的 C 类”。
我的问题不是关于如何获得这些后验概率,而是关于描述找到它们的过程的正确术语。你可以称之为回归,因为我们现在正试图估计一些实数值,但我不太确定这是否正确。我觉得这也不完全是分类,它介于两者之间。
是否有一个词描述了查找某些输入属于每个可能的输出类的类条件后验概率的过程?
PS我不确定这个问题是否足以成为一个编程问题,但由于它是关于机器学习的,而机器学习通常涉及大量的编程,让我们试一试。
r - 在回归模型中筛选(多重)共线性
我希望这不是“问和回答”的问题......这里有:(多重)共线性是指回归模型中预测变量之间的极高相关性。如何治愈它们……好吧,有时您不需要“治愈”共线性,因为它不会影响回归模型本身,而是对单个预测变量的影响的解释。
发现共线性的一种方法是将每个预测变量作为因变量,将其他预测变量作为自变量,确定 R 2,如果它大于 0.9(或 0.95),我们可以认为预测变量是多余的。这是一种“方法”……其他方法呢?其中一些是耗时的,例如从模型中排除预测变量并观察 b 系数变化——它们应该明显不同。
当然,我们必须始终牢记分析的具体背景/目标......有时,唯一的补救措施是重复研究,但现在,我对在(多重)共线性时筛选冗余预测变量的各种方法感兴趣发生在回归模型中。
r - R中具有稀疏特征矩阵的大规模回归
我想在 R 中使用许多(例如 100k)特征进行大规模回归(线性/逻辑),其中每个示例在特征空间中相对稀疏——例如,每个示例约 1k 个非零特征。
看起来SparseM包slm
应该这样做,但我很难从sparseMatrix
格式转换为slm
友好的格式。
我有一个标签的数字向量y
和一个sparseMatrix
特征X
\in {0,1}。当我尝试
我收到以下错误:
大概是因为slm
想要一个SparseM
对象而不是一个sparseMatrix
.
是否有一种简单的方法可以a)SparseM
直接填充对象或b)将a转换sparseMatrix
为SparseM
对象?或者也许有更好/更简单的方法来做到这一点?
X
(我想我可以使用and明确地编写线性回归的解决方案y
,但如果能slm
工作就好了。)
php - PHP 估计函数
我正在尝试根据数字数组(如 $numbers)计算数字系列中的值 $x。
前任:
什么是统计上最准确的方法?
r - R 中的逻辑回归(类似 SAS 的输出)
我手头有一个问题,我认为这在群体中相当普遍,因为 R 被用于 Analytics 代替 SAS。用户希望在 R 中获得他们在 SAS 中已经习惯的逻辑回归结果。
为此,我提出了 R 中的 Design 包,其中包含许多函数来提取 SAS 报告的各种指标。
如果您有与其他包有关的建议,或复制某些 SAS 输出以进行逻辑回归的示例代码,我会很高兴听到这些建议。
一些要求是:
逻辑回归的逐步变量选择
选择因子变量的基本水平
Hosmer-Lemeshow 统计量
一致的和不一致的
Tau C 统计量
谢谢你的建议。
r - Stata的xtnbreg有R函数吗?
一直在使用 Stata 在复制中运行负二项式回归。不确定Stata是如何做到这一点的,但想知道是否有一个R函数/包可以做同样的事情?R 会让我更好地了解它是如何工作的,因为我可以看到代码。
r - 使用 glm 在 R 中指定公式而不显式声明每个协变量
我想在不完全指定每个变量的情况下强制将特定变量纳入 glm 回归。我的真实数据集有大约 200 个变量。到目前为止,我无法在我的在线搜索中找到这样的样本。
例如(只有 3 个变量):
如果我想包含所有主要术语,这有一个简单的捷径:
但是假设我想包括所有主要术语(W1、W2 和 A)加上 W2^2:
这有捷径吗?
[在发布前编辑自己:]这行得通!glm(formula = Y ~ . + I(W2^2), family = binomial, data = samp)
好吧,那这个呢!
我想省略一个主要术语变量,只包括两个主要术语(A,W2)和 W2^2 和 W2^2:A:
显然,只有几个变量不需要捷径,但我使用的是高维数据。当前数据集“仅”有 200 个变量,但其他一些数据集有数千个。
r - 使用 p 值逐步回归以删除 p 值不显着的变量
我想使用p 值作为选择标准执行逐步线性回归,例如:在每个步骤中删除具有最高即最不显着 p 值的变量,当所有值都由某个阈值alpha定义时停止。
我完全知道我应该使用 AIC(例如 command step或stepAIC)或其他一些标准,但我的老板没有掌握统计数据并坚持使用 p 值。
如有必要,我可以编写自己的例程,但我想知道是否有已经实现的版本。
regression - 爱好项目所需的回归公式
我有一个基于汽车的爱好网站。
我可以使用 3 个变量获取汽车销售数据:价格、里程和年龄。如果我收集了足够的数据,是否可以输入年龄和里程并返回提取的价格?假设每种情况下的汽车型号相同。
谢谢。顺便说一句,我是程序员而不是数学家,所以不要以为我知道模型等。