0

比如说在文档分类领域,如果我有一个包含 1000 个实例的数据集,但实例(文档)的内容相当少;而且我有另一个包含 200 个实例的数据集,但每个实例都具有更丰富的内容。如果 IDF 不在我的考虑范围之内,那么训练实例的数量真的很重要吗?分类算法是否会考虑到这一点?

谢谢。山姆

4

1 回答 1

1

您可以将其视为一般的机器学习问题。可以帮助您了解训练数据大小的重要性的最简单问题是曲线拟合。

分类器或拟合模型的不确定性和偏差是样本量的函数。小样本量是一个众所周知的问题,我们经常试图通过收集更多的训练样本来避免这个问题。这是因为非线性分类器的不确定性估计是通过模型的线性近似来估计的。而这种估计只有在有大量样本作为中心极限定理的主要条件时才是准确的。

在决定训练样本大小时,异常值的比例也是您应该考虑的一个重要因素。如果更大的样本量意味着更大比例的异常值,那么应该限制样本量。

文档大小实际上是特征空间大小的间接指标。例如,如果从每个文档中您只有 10 个特征,那么您正在尝试在 10 维空间中分离/分类文档。如果每个文档中有 100 个特征,那么在 100 维空间中也会发生同样的情况。我想您很容易看到在更高维度上分隔文档的画线更容易。

对于文档大小和样本大小,经验法则是尽可能高,但实际上这是不可能的。例如,如果您估计分类器的不确定性函数,那么您会发现样本量高于该阈值的阈值实际上不会减少不确定性和偏差。根据经验,您还可以通过蒙特卡罗模拟找到某些问题的阈值。

大多数工程师不会费心去估计不确定性,这通常会导致他们实施的方法的行为不理想。这对于玩具问题来说很好,但在考虑到估计和计算的不确定性的现实问题中,对于大多数系统来说都是至关重要的。我希望这能在一定程度上回答你的问题。

于 2012-05-13T17:48:20.500 回答