0

我希望有人能帮我解决这个问题(请):我想在一些文章特征(作者、类别、年份、影响因子、引文)之间做相似性,但我不知道如何为名义数据做这件事,因为我可以做余弦相似度的数字特征,但我怎么能做名义上的呢?提前感谢大家!

4

1 回答 1

0

虽然我不想推荐这种方法,但它似乎很受欢迎:

将您的类别编码为二进制属性。IE:

A1=Car   ->  (1,0,0)
A1=Truck ->  (0,1,0)
A1=Bike  ->  (0,0,1)

然后您可以像处理文本一样继续。这实际上与将它们视为三个不同的词相同。

它会起作用,但恕我直言,在连续数值之外没有“相关”的概念。已经在文本上,与其说是一种好的方法,不如说是一种制作东西的技巧。

于 2014-04-18T08:50:20.603 回答