我在计算 Jaccard 相似度以使用 MySQL 销售交易数据库中的交易 ID 查找类似书籍时遇到这个问题:
t1=Java、Ruby、C
t2=Java、C#、Python
t3= C#、VB、C
....ETC
Java 交集的大小 = 2; (我们怎么能找到它?)
union 的大小 = 3,(我们怎样才能找到它?)
Jaccard 相似度 = (交集/并集) = 2/3
但我不明白如何找出两个向量的“交集”和“并集”,或者如何在 Java/JSP 中实现它。
请帮助我,非常感谢!