我应该使用bagging(bootstrap 聚合的缩写)技术来训练随机森林分类器。我在这里阅读了这种学习技术的描述,但我还没有弄清楚我最初是如何组织数据集的。
目前,我首先加载所有正面示例,然后立即加载负面示例。而且,正例少于负例的一半,所以通过从数据集中均匀采样,得到负例的概率大于得到正例的概率。
我应该如何构建初始数据集?我应该打乱包含正面和负面例子的初始数据集吗?
我应该使用bagging(bootstrap 聚合的缩写)技术来训练随机森林分类器。我在这里阅读了这种学习技术的描述,但我还没有弄清楚我最初是如何组织数据集的。
目前,我首先加载所有正面示例,然后立即加载负面示例。而且,正例少于负例的一半,所以通过从数据集中均匀采样,得到负例的概率大于得到正例的概率。
我应该如何构建初始数据集?我应该打乱包含正面和负面例子的初始数据集吗?
Bagging 依赖于使用引导样本来训练不同的预测变量,并聚合它们的结果。有关完整详细信息,请参阅上面的链接,但简而言之 - 您需要从数据中重复采样(即,如果您有 N 个编号为 1 到 N 的元素,请在 1 和 N 之间选择 K 个随机整数,然后选择那些 N 个元素作为训练集),通常创建与原始数据集大小相同的样本(即 K=N)。
您可能应该记住的另一件事 - 随机森林不仅仅是对原始数据的引导聚合 - 还有一个随机选择的特征子集用于每个单独的树。