这听起来可能很幼稚,但我只是想确定在机器学习术语中说话时,文档聚类中的特征是从文档中选择的词,如果在词干提取后丢弃一些词或作为停用词。
我正在尝试使用 LibSvm 库,它说对于不同类型的 { no_of_instances, no_of_features } 有不同的方法。
就像 no_of_instances 远低于 no_of_features 一样,线性内核就可以了。如果两者都很大,线性会很快。但是,如果 no_of_features 很小,则非线性内核更好。
因此,对于我的文档聚类/分类,我有少量文档,例如 100 个,每个文档可能有大约 2000 个单词。所以我属于小型 no_of_instances 和大型 no_of_features 类别,具体取决于我认为的特征是什么。
我想对文档使用 tf-idf。
那么 no_of_features 是我从 tf-idf 得到的向量的大小吗?