0

这听起来可能很幼稚,但我只是想确定在机器学习术语中说话时,文档聚类中的特征是从文档中选择的词,如果在词干提取后丢弃一些词或作为停用词。

我正在尝试使用 LibSvm 库,它说对于不同类型的 { no_of_instances, no_of_features } 有不同的方法。

就像 no_of_instances 远低于 no_of_features 一样,线性内核就可以了。如果两者都很大,线性会很快。但是,如果 no_of_features 很小,则非线性内核更好。

因此,对于我的文档聚类/分类,我有少量文档,例如 100 个,每个文档可能有大约 2000 个单词。所以我属于小型 no_of_instances 和大型 no_of_features 类别,具体取决于我认为的特征是什么。

我想对文档使用 tf-idf。

那么 no_of_features 是我从 tf-idf 得到的向量的大小吗?

4

1 回答 1

1

您在这里谈论的只是一种可能性,实际上是定义文档功能的最简单的方法。在机器学习术语中,特征是从输入空间(在这个特定示例中 - 从文档空间)到某个抽象空间的任何映射,它适用于特定的机器学习模型。大多数 ML 模型(如神经网络、支持向量机等)都在数值向量上工作,因此特征必须是从文档到(恒定大小)数字向量的映射。这是有时选择袋子表示的原因,我们有一个单词的计数向量作为文档表示。这个限制可以通过使用特定模型来克服,例如朴素贝叶斯(或 SVM 的自定义内核,使它们能够处理非数字数据),只要我们可以定义特定的条件概率,它就可以在任何对象上工作 -在这里,最基本的方法是将包含或不包含特定单词的文档视为“特征”。一般来说,这不是唯一的可能性,有几十种方法使用统计特征、语义特征(基于一些本体,如 wordnet)等。

总而言之——这只是机器学习模型文档的一种最简单的表示。很好开始,很好理解基础知识,但远非“特征定义”。

编辑

no_of_features是您用于文档表示的向量的大小,因此如果您使用 tf-idf,则结果向量的大小为 a no_of_featuers

于 2013-08-12T07:34:26.333 回答