0

恐怕我对分类器背后的理论理解不深,所以如果我的问题对你来说很幼稚,请原谅。

目标: 给定任意文本,根据年龄范围对其进行分类,即根据其可读性。所以我的课程将是年龄范围,如(简化):5-6、6-8、8-10、10-14、14-16、成人。理想情况下,每个文本文档都应该获得每个类别的概率(不仅是最可能的类别)。

当前状态: 特征提取器已到位。它为每个文本文档输出一个特征向量,大约有 30 个特征,几乎都是数字的,其中一些是名义上的。我正在尝试使用 Weka 训练模型,目前使用 weka 中包含的 SMO svm,并通过网格搜索进行了优化。我也可以使用 libSVM,但这目前并不重要。

问题:

  1. 你会为这个任务使用不同的分类器,尤其是希望输出具有每类概率的结果吗?
  2. 训练数据并没有被划分在如此好的不相交范围内。这些范围可能重叠。一些文本(手动)分类为 10-12 范围,其他一些来自不同来源的文本被分类为 11-13 或 8-13 等。您将如何处理?修改过滤/训练?不是修改它们,而是以不同的方式解释结果?
4

1 回答 1

1

您可以尝试进行回归而不是分类 - 基本上您会尝试预测阅读每个文档的“理想”年龄。

这将允许您处理不同的年龄范围,尽管尚不完全清楚如何表示班级 - 也许只是从取平均值开始,所以对于 8-12,正确答案将是 10 等(并玩弄“成人”的价值有点)。

我的猜测是,它可能会导致对模型的估计更稳健,并且结果可以很好地解释——例如,如果你有很多 8-12 和 12-15 的例子,并且算法预测 11.9,你可以说对于 8-12 范围来说,这“勉强”可以理解。

于 2012-11-25T15:49:24.983 回答