1

我正在使用 weka SMO 分类器对文档进行分类。smo 有很多可用的参数,如内核、容差等。我使用不同的参数进行了测试,但在大数据集上没有得到好的结果。

对于 90 多个类别,只有 20% 的文档得到正确分类。

请任何人告诉我在 SMO 中获得最高性能的最佳参数集。

4

1 回答 1

3

这里的主要问题不是分类本身,而是选择合适的特征。使用原始 HTML 会导致非常大的噪音,进而导致分类结果非常差。因此,要获得好的结果,请执行以下操作:

  1. 提取相关文本。不仅要删除 HTML 标签,还要准确获取描述项目的文本。
  2. 创建关键字字典。例如卡布奇诺、拿铁、白米饭等。
  3. 使用词干提取词形还原来获取单词的基本形式并避免将例如“cotton”和“cottons”计算为 2 个不同的单词。
  4. 从文本制作特征向量。属性(特征名称)应该是字典中的所有单词。值可能是:二进制(如果单词出现在文本中,则为 1,否则为 0),整数(文本中相关单词的出现次数),tf-idf(如果您的文本长度非常不同,则使用此值)等。
  5. 只有在所有这些步骤之后,您才能使用分类器

很可能分类器类型在这里不会发挥重要作用:无论使用何种分类技术,基于字典的特征通常都会产生非常准确的结果。您可以使用 SVM (SMO)、朴素贝叶斯、ANN 甚至 kNN。更复杂的方法包括创建类别层次结构,例如,类别“咖啡”包含在类别“饮料”中,而类别“饮料”又是类别“食品”的一部分。

于 2012-08-31T15:00:52.287 回答