0

如何通过应用监督学习为要解决的二元分类问题选择样本量和样本集(用于训练和测试)?

当前的实现基于 15 个二进制特征,我们可能会将其扩展到 20 个或可能 24 个二进制特征,以提高准确度指标。分类基于在决策表中的查找,我们希望将其替换为具有机器学习分类器的决策。部分目标也是衡量我们当前的准确性指标。

a) 监督训练选择的最小样本量是多少,以平衡所需的准确性和成本?b) 我们如何选择用于训练/测试集的实际样本?

计算学习理论定义了给定假设空间的最小样本,将错误保持在某个阈值以下的期望概率。请提供解释和应用这些公式的可能示例。

样本分类训练/测试集将由人工决定收集。所以,显然选择这个样本集是有成本的。当成本和收益无法轻易写在纸上时,为项目提供资金变得更加困难。

4

1 回答 1

1

没有简单的方法来确定最小样本量,因为在机器学习方面没有关于样本量的硬性规定。许多分类器可以应用于二元分类,例如 SVM,并且有许多可以应用的采样技术,这取决于数据的结构、底层系统和分析的目的。您对集合选择本身的引用有些令人困惑:您是在问如何确定构建准确分类器所需的最小数据量?答案取决于所使用的分类器和分类器的学习能力。此外,即使您获得足够的错误率,在较小模型上训练的模型也可能无法像在较大模型上训练的模型那样泛化,因此,如果您主要对以前未见过的记录的准确分类感兴趣,则需要牢记这一点。至于选择训练样本集,这取决于数据的结构和使用的采样方法。由于过度拟合,您可能更喜欢在训练模型时使用交叉验证技术。

于 2015-06-26T01:55:37.673 回答