我有如下文件
1 NAME LASTNAME DOB CITY
2 NAME ADDRESS CITY
3 NAME LASTNAME ADDRESS CITY
4 NAME LASTNAME ADDRESS CITY PINCODE
5 NAME ADDRESS PINCODE
并TfidfVectorizer
给出以下值
address city dob employername lastname mobile name \
0 0.000000 0.306476 0.68835 0.0 0.553393 0.0 0.354969
1 0.573214 0.535492 0.00000 0.0 0.000000 0.0 0.620221
2 0.412083 0.384964 0.00000 0.0 0.695116 0.0 0.445875
3 0.357479 0.333954 0.00000 0.0 0.603009 0.0 0.386795
4 0.493437 0.000000 0.00000 0.0 0.000000 0.0 0.533901
phone pincode
0 0.0 0.000000
1 0.0 0.000000
2 0.0 0.000000
3 0.0 0.497447
4 0.0 0.686637
从上面看,文件 1 和 3 都有“名称”术语,也没有。两个文档中的术语相同,因此 tf(name) 在两种情况下都应该相同。idf 也是一样的。但是为什么“名称”功能在两个文档中具有不同的 tfidf 值?
请帮助我理解这一点。
实际上,我有很多文档并在所有这些文档上都应用了 tfidf,上面给出的是前 5 条数据记录。