nlp - 如何使用 reuters-21578 数据集和 svm.net 进行文本分类？

Question

我刚刚开始了一个文本分类的应用程序，我已经阅读了很多关于这个主题的论文，但是直到现在我不知道如何开始，我觉得我没有得到完整的图像。我已经获得了训练数据集并阅读了它的描述，并获得了 SVM 算法 (SVM.Net) 的一个很好的实现，但我不知道如何在这个实现中使用该数据集。我知道我应该从数据集的文本中提取特征并将这些特征用作 SVM 的输入，所以任何人都可以告诉我有关如何提取文本特征并将它们用作 SVM 算法的输入的详细教程，然后使用这个算法对新文本进行分类？如果有一个关于使用 SVM 进行文本分类的完整示例，那就太好了。

任何帮助，将不胜感激。提前致谢。

score 4 · Accepted Answer

为文本分类创建特征可以像您希望的那样复杂。

一种简单的方法是将每个不同的术语映射到特征索引。然后，您将每个文档表示为每个术语频率的向量。（您可以删除停用词、重量词等）。对于文本分类，您还可以为每个向量分配标签。

例如，如果文档是句子：

John loves Mary

带有“垃圾邮件”标签。

那么你可能有以下映射：

John : 1
loves: 2
Mary: 3

你的向量然后变成：

1 1 2 1 3 1

（我假设每个特征的权重为 1）

我不了解 SVM.NET，但大多数有监督的机器学习方法都会接受基于向量的输入。

nlp - 如何使用 reuters-21578 数据集和 svm.net 进行文本分类？

1 回答 1

Related

Reference