我正在使用 weka SMO 分类器对文档进行分类。smo 有很多可用的参数,如内核、容差等。我使用不同的参数进行了测试,但在大数据集上没有得到好的结果。
对于 90 多个类别,只有 20% 的文档得到正确分类。
请任何人告诉我在 SMO 中获得最高性能的最佳参数集。
我正在使用 weka SMO 分类器对文档进行分类。smo 有很多可用的参数,如内核、容差等。我使用不同的参数进行了测试,但在大数据集上没有得到好的结果。
对于 90 多个类别,只有 20% 的文档得到正确分类。
请任何人告诉我在 SMO 中获得最高性能的最佳参数集。
这里的主要问题不是分类本身,而是选择合适的特征。使用原始 HTML 会导致非常大的噪音,进而导致分类结果非常差。因此,要获得好的结果,请执行以下操作:
很可能分类器类型在这里不会发挥重要作用:无论使用何种分类技术,基于字典的特征通常都会产生非常准确的结果。您可以使用 SVM (SMO)、朴素贝叶斯、ANN 甚至 kNN。更复杂的方法包括创建类别层次结构,例如,类别“咖啡”包含在类别“饮料”中,而类别“饮料”又是类别“食品”的一部分。