7

嘿,这是我的问题,

给定一组文档,我需要将每个文档分配给预定义的类别。

我打算使用 n-gram 方法来表示每个文档的文本内容,然后在我拥有的训练数据上训练一个 SVM 分类器。
如果我错过了理解的东西,请纠正我。

现在的问题是类别应该是动态的。这意味着,我的分类器应该处理具有新类别的新训练数据。

例如,如果我训练了一个分类器将给定文档分类为 A 类、B 类或 C 类,然后我得到了 D 类的新训练数据。我应该能够通过向分类器提供“D 类”的新训练数据。

总而言之,我不想将旧的训练数据(具有 3 个类别)和新的训练数据(具有新的/未见过的类别)结合起来并再次训练我的分类器。我想即时训练我的分类器

这可以用 SVM 实现吗?如果没有,你能推荐我几种分类算法吗?或任何可以帮助我的书/论文。

提前致谢。

4

3 回答 3

8

Naive-Bayes是相对快速的增量分类算法。
KNN本质上也是增量的,甚至更易于实现和理解。

这两种算法都在开源项目Weka中实现,作为KNN 的NaiveBayesIBk

然而,从个人经验来看——它们都容易受到大量非信息特征的影响(通常是文本分类的情况),因此通常使用某种特征选择来从这些算法中获得更好的性能,这可能是作为增量实施是有问题的。

于 2012-08-20T06:22:01.867 回答
1

Edwin Chen 的这篇博文描述了用于聚类的无限混合模型。我认为这种方法支持自动确定集群的数量,但我仍然试图绕开它。

于 2012-08-20T02:02:50.660 回答
0

符合您的标准的算法类别称为“增量算法”。几乎所有方法都有增量版本。最容易实现的是朴素贝叶斯。

于 2012-08-20T05:28:31.783 回答