问题标签 [cross-validation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
matlab - 绘制一对多 SVM 中 10 倍交叉验证的结果(使用 LibSVM)
我想libsvmtrain_ova
在这个链接中绘制结果:
10 fold cross-validation in one-against-all SVM (using LibSVM)
,我在里面使用了这段代码,libsvmtrain_ova
但我认为它不能正常工作。
matlab - 在matlab中使用带有ar函数的crossval函数的例子?
任何人都可以提供或重定向到一个来源,在那里我可以看到一个简单的crossval
MATLAB 中函数用法示例,其中预测函数是AR
orARX
函数?
我无法从 MATLAB 的文档或网络中找到示例...
r - R caret / rfe 内训练的交叉验证如何工作
我对图书馆的rfe
功能有疑问。caret
在插入符号主页链接上,他们给出了以下 RFE 算法:
算法
在这个例子中,我使用了rfe
带有 3 折交叉验证的函数和带有线性支持向量机和 5 折交叉验证的train函数。
- 从上面的算法中,我假设该算法可以使用 2 个嵌套的交叉验证:
rfe
将数据(150 个样本)分成 3 折- 该
train
函数将在具有 5 倍交叉验证的训练集(100 个样本)上运行以调整模型参数 - 以及随后的 RFE。
让我困惑的是,当我查看rfe
函数的结果时:
由此看来,来自 5 倍 cv 的训练集的大小是 120 个样本,而我预计的大小是 80。
因此,如果有人能阐明rfe和train如何协同工作,那就太好了。
干杯
machine-learning - weka 是否在交叉验证中平衡跨类的训练/测试集?
当我对 m 个类执行 n 折交叉验证时,在每一折中,训练集和测试集是否平衡?通过平衡,我的意思是询问训练和测试集中每个班级是否(几乎)有相同的样本集。
tree - 决策树交叉验证问题
所以我正在编写一个决策树程序。假设我有一个包含 1000 个实例的数据集。据我了解 - 通过交叉验证,我将数据集分成 900-100 个组。每次使用不同的 900 组来创建树并使用 100 组来测试它
我不明白的是这些问题: 1. 我用哪棵树作为我的最终决策树(选择错误最少的那棵不是一个好选择,因为我想这可能是因为过度拟合) 2 . 交叉验证是否仅用于估计最终树中的误差?3. 我发现了一些关于交叉验证的不同算法,一些使用相同的分割标准,还有一些使用不同的标准来选择最好的树——你能给我指出一个有信息的好地方,这样我就可以准确地弄清楚我是什么需要?或者解释一下你自己?
谢谢!
python - 在 scikit learn 中结合网格搜索和交叉验证
为了改善支持向量机的结果,我必须使用网格搜索来搜索更好的参数和交叉验证。我不确定如何在 scikit-learn 中组合它们。网格搜索搜索最佳参数(http://scikit-learn.org/stable/modules/grid_search.html)和交叉验证避免过度拟合(http://scikit-learn.org/dev/modules/cross_validation.html)
结果:
python - TypeError: __init__() 得到了一个意外的关键字参数“评分”
当明显
TypeError: __init__() got an unexpected keyword argument 'scoring'
的评分是一个参数时( http://scikit-learn.org/dev/modules /生成/sklearn.grid_search.GridSearchCV.html#sklearn.grid_search.GridSearchCV)?
runtime-error - 我在每个类中都有三个以上的元素,但是我得到了这个错误:“类不能小于 scikit-learn 中的 k=3”
这是我的目标(y):
我不知道为什么我正在执行:
我收到此错误:
r - 插入符号。数据拆分与trainControl的关系
我已经仔细阅读了位于http://caret.r-forge.r-project.org/training.html的CARET文档,其中的小插曲,一切都很清楚(网站上的示例很有帮助!),但是我仍然对以下两个论点之间的关系感到困惑:trainControl
以及trainControl
插入符号中的数据拆分函数之间的相互作用(例如createDataPartition
、createResample
和)createFolds
createMultiFolds
为了更好地提出我的问题,让我使用文档中的以下示例:
我的问题是:
如果我使用
createDataPartition
(我假设它会进行分层引导),如上例所示,并且我将结果传递index
给trainControl
我是否需要LGOCV
在我的调用中用作方法trainControl
?如果我使用另一个(例如cv
)会有什么不同?在我看来,一旦你修复index
了.method
index
createDataPartition
和 和有什么不一样createResample
?是createDataPartition
分层引导,而createResample
不是?
3) 如何使用插入符号进行分层k 折(例如 10 折)交叉验证?下面会做吗?
n-gram - ngram建模,如何进行交叉验证
我试图了解交叉验证在 ngram 模型的上下文中是如何工作的。我知道该模型本质上列出了训练中语料库中每个 ngram 的概率。但是,交叉验证如何工作?我应该调整的参数是什么?我知道我想在验证集上获得 100% 的准确度,但我不确定我需要调整什么才能使其正常工作。它与平滑有关吗?