如何通过应用监督学习为要解决的二元分类问题选择样本量和样本集(用于训练和测试)?
当前的实现基于 15 个二进制特征,我们可能会将其扩展到 20 个或可能 24 个二进制特征,以提高准确度指标。分类基于在决策表中的查找,我们希望将其替换为具有机器学习分类器的决策。部分目标也是衡量我们当前的准确性指标。
a) 监督训练选择的最小样本量是多少,以平衡所需的准确性和成本?b) 我们如何选择用于训练/测试集的实际样本?
计算学习理论定义了给定假设空间的最小样本,将错误保持在某个阈值以下的期望概率。请提供解释和应用这些公式的可能示例。
样本分类训练/测试集将由人工决定收集。所以,显然选择这个样本集是有成本的。当成本和收益无法轻易写在纸上时,为项目提供资金变得更加困难。