3

我正在实现一个分类工具,并正在试验各种 TF 版本:两个对数(对数调用内部/外部的校正)、标准化、增强和对数平均。显然,由这些调制的分类器准确度存在显着差异 - 高达 5%。然而,奇怪的是,我无法提前说出在给定数据集上哪个会表现得更好。我想知道我是否缺少一些工作,或者,也许有人可以分享与这些工作的经验?

4

2 回答 2

2

确实很难提前判断哪种加权方案最有效。总的来说,没有免费的午餐——对一个数据集最有效的算法可能对另一个数据集很糟糕。更重要的是,我们在这里谈论的不是完全不同的选择。TF-IDF 体现了一种关于分类/检索的特定直觉,其所有不同的变体都是相同的。唯一的判断方法是实验

PS 关于术语的说明:当您说显着时,您是否使用交叉验证或随机重采样进行了任何统计显着性测试?您看到的差异可能是偶然的。

于 2013-02-16T12:23:30.907 回答
1

基本上,通过向文档添加给定术语而增加的重要性应该随着术语的出现次数而降低。例如,“汽车”在文档中出现两次意味着该词比只出现一次更重要。但是,如果您将出现 20 次的术语与出现 19 次的相同术语进行比较,则该差异应该较小。

您通过指定不同的规范化所做的是定义 TF 值在某个点饱和的速度。

您可以尝试将您的发现与有关每个文档的平均 TF 或类似指标的一些信息相关联。

于 2013-04-24T16:38:59.587 回答