r - 文档分类的决策树

Question

嗨，我想知道是否可以使用决策树进行文档分类，如果可以，那么数据表示应该如何？我知道将 R 包派对用于决策树。

score 2 · Accepted Answer

一种方法是拥有一个巨大的矩阵，其中每一行是一个文档，每一列是一个单词。单元格中的值是该单词在该文档中显示的次数。

然后，如果你正在处理“监督学习”的情况，你应该有另一个分类器列，从那里你可以使用像“rpart”这样的命令（来自 rpart 包）来创建你的分类树。该命令将以与线性模型 (lm) 类似的方式将公式输入到 rpart。

如果需要，您还可以尝试首先将您的单词分组为“单词组”，然后让每一列属于不同的单词组，并用数字表示文档中有多少单词属于该组。为此，我会看看“tm”包。（如果你最终用它做某事，请考虑在这里发布它，这样我们可以从中学习）

最好的，塔尔

score 2 · Accepted Answer

本文对不同的文本分类技术及其准确性进行了调查。简而言之，您可以使用决策树对文本进行分类，但还有其他更好的算法。

Sebastiani, F. (2002)。自动文本分类中的机器学习。ACM 计算调查，cs.IR/0110053v1。可从：http ://arxiv.org/abs/cs.IR/0110053v1 获得。

score 0 · Accepted Answer

我对此表示怀疑——至少按照通常的定义，决策树使用单个标准来指定子分支。在对文档进行分类时，您很少能将任何事情建立在一个单一的标准上——您需要多个标准，即使那样您也不会得到一个清晰的树状决策，但是“这比另一件事”的结果。

3 回答 3