machine-learning - 文档聚类/分类中的功能？

Question

这听起来可能很幼稚，但我只是想确定在机器学习术语中说话时，文档聚类中的特征是从文档中选择的词，如果在词干提取后丢弃一些词或作为停用词。

我正在尝试使用 LibSvm 库，它说对于不同类型的 { no_of_instances, no_of_features } 有不同的方法。

就像 no_of_instances 远低于 no_of_features 一样，线性内核就可以了。如果两者都很大，线性会很快。但是，如果 no_of_features 很小，则非线性内核更好。

因此，对于我的文档聚类/分类，我有少量文档，例如 100 个，每个文档可能有大约 2000 个单词。所以我属于小型 no_of_instances 和大型 no_of_features 类别，具体取决于我认为的特征是什么。

我想对文档使用 tf-idf。

那么 no_of_features 是我从 tf-idf 得到的向量的大小吗？

score 1 · Accepted Answer

您在这里谈论的只是一种可能性，实际上是定义文档功能的最简单的方法。在机器学习术语中，特征是从输入空间（在这个特定示例中 - 从文档空间）到某个抽象空间的任何映射，它适用于特定的机器学习模型。大多数 ML 模型（如神经网络、支持向量机等）都在数值向量上工作，因此特征必须是从文档到（恒定大小）数字向量的映射。这是有时选择袋子表示的原因，我们有一个单词的计数向量作为文档表示。这个限制可以通过使用特定模型来克服，例如朴素贝叶斯（或 SVM 的自定义内核，使它们能够处理非数字数据），只要我们可以定义特定的条件概率，它就可以在任何对象上工作 -在这里，最基本的方法是将包含或不包含特定单词的文档视为“特征”。一般来说，这不是唯一的可能性，有几十种方法使用统计特征、语义特征（基于一些本体，如 wordnet）等。

总而言之——这只是机器学习模型文档的一种最简单的表示。很好开始，很好理解基础知识，但远非“特征定义”。

编辑

no_of_features是您用于文档表示的向量的大小，因此如果您使用 tf-idf，则结果向量的大小为 a no_of_featuers。

machine-learning - 文档聚类/分类中的功能？

1 回答 1

Related

Reference