还有许多其他因素......但一个重要的因素(在确定合适的比例和训练数据量时)是现实世界中每个消息类别(正面、中性、负面)的预期分布。实际上,训练集(和控制集)的良好基线是
- [定性地]尽可能代表整个“人口”
- [定量地] 足够大,以至于从这些集合中进行的测量具有统计意义。
训练集中某一类消息的[相对]丰度的影响很难确定;在任何情况下,它都是一个较小的因素——或者更确切地说是一个对其他因素高度敏感的因素。分类器准确性的改进,作为一个整体,或者关于特定类别,通常更多地与分类器的具体实现相关(例如,它是贝叶斯,什么是标记,消除了噪声标记,接近度一个因素,我们是否使用二元语法等...)而不是训练集的纯粹定量特征。
虽然上述内容通常是事实,但对选择训练集的大小和组成有一定帮助,但有一些方法可以事后确定何时提供了足够大小和组成的训练数据。
实现这一目标的一种方法是引入一个控制集,即一个手动标记但不属于训练集的一部分,并使用训练集的各种子集测量不同的测试运行,为每个类别(或一些类似的精度测量),为此控制集的分类。当这些测量值没有改善或降低时,超出了统计代表性,训练 [子] 集的大小和组成可能是正确的(除非它是一个过拟合集:-(,但这完全是另一个问题。 ..)
这种方法意味着人们使用的训练集可能是有效需要的训练子集大小的 3 到 5 倍,因此可以随机(在每个类别中)为各种测试构建许多不同的子集。