恐怕我对分类器背后的理论理解不深,所以如果我的问题对你来说很幼稚,请原谅。
目标: 给定任意文本,根据年龄范围对其进行分类,即根据其可读性。所以我的课程将是年龄范围,如(简化):5-6、6-8、8-10、10-14、14-16、成人。理想情况下,每个文本文档都应该获得每个类别的概率(不仅是最可能的类别)。
当前状态: 特征提取器已到位。它为每个文本文档输出一个特征向量,大约有 30 个特征,几乎都是数字的,其中一些是名义上的。我正在尝试使用 Weka 训练模型,目前使用 weka 中包含的 SMO svm,并通过网格搜索进行了优化。我也可以使用 libSVM,但这目前并不重要。
问题:
- 你会为这个任务使用不同的分类器,尤其是希望输出具有每类概率的结果吗?
- 训练数据并没有被划分在如此好的不相交范围内。这些范围可能重叠。一些文本(手动)分类为 10-12 范围,其他一些来自不同来源的文本被分类为 11-13 或 8-13 等。您将如何处理?修改过滤/训练?不是修改它们,而是以不同的方式解释结果?