我有一个看起来像这样的 Pandas 数据框:
Group1 Group2 Sim
A A 1.0
A B 0.5
A C 0.8
B B 1.0
B A 0.5
B C 0.7
C C 1.0
C A 0.8
C B 0.7
Group1和Group2列代表两组对,列Sim代表 Jaccard 相似度。
困难在于:成对的 Jaccard 计算导致两个组列中重复对。
因此,例如,跨组列A,B == B,A:A,C == C,A; 等等。
我正在努力解决这个问题:如何删除两列中的冗余/反向对?(对更大的真实数据集的计算限制需要去除冗余。)
我期待以下输出:
Group1 Group2 Sim
A B 0.5
A C 0.8
B C 0.7
对此的任何帮助将不胜感激。
谢谢!