3

我刚刚开始了一个文本分类的应用程序,我已经阅读了很多关于这个主题的论文,但是直到现在我不知道如何开始,我觉得我没有得到完整的图像。我已经获得了训练数据集并阅读了它的描述,并获得了 SVM 算法 (SVM.Net) 的一个很好的实现,但我不知道如何在这个实现中使用该数据集。我知道我应该从数据集的文本中提取特征并将这些特征用作 SVM 的输入,所以任何人都可以告诉我有关如何提取文本特征并将它们用作 SVM 算法的输入的详细教程,然后使用这个算法对新文本进行分类?如果有一个关于使用 SVM 进行文本分类的完整示例,那就太好了。

任何帮助,将不胜感激。提前致谢。

4

1 回答 1

4

为文本分类创建特征可以像您希望的那样复杂。

一种简单的方法是将每个不同的术语映射到特征索引。然后,您将每个文档表示为每个术语频率的向量。(您可以删除停用词、重量词等)。对于文本分类,您还可以为每个向量分配标签。

例如,如果文档是句子:

John loves Mary

带有“垃圾邮件”标签。

那么你可能有以下映射:

John : 1
loves: 2
Mary: 3

你的向量然后变成:

1 1 2 1 3 1

(我假设每个特征的权重为 1)

我不了解 SVM.NET,但大多数有监督的机器学习方法都会接受基于向量的输入。

于 2011-05-23T13:24:58.983 回答