3

我现在正在做文本分类。TF-IDF 是否存在比使用词频向量更糟糕的情况?怎么解释?谢谢

4

1 回答 1

0

两个指标……都在两个维度上进行区分——信息性(IDF)和关于性(TF)

包含数百次出现的某些高 IDF 术语的文档将导致糟糕的、嘈杂的匹配……在 ex。垃圾邮件文件

一本好书——超越词袋,(Donald A. Metzler Jr. 2007)

于 2013-04-04T12:23:21.700 回答