如何计算两个标签列表之间的语义相似度?例如:
输入
list1 = ['marketing', 'social medial', 'operations', 'management']
list2 = ['software development', 'system network', 'system design']
输出
5%
有没有我可以用来执行此操作的 python 包/库?
您无法计算“语义相似度”,只能计算两个列表的重叠程度。您有两个任意元素的列表,并希望查看这些列表彼此之间的相似程度。
有几个指标可以做到这一点,例如Jaccard 指数或Sørensen-Dice 系数。这些中的任何一个都应该适用于您的目的。
这假设您的列表中的元素是任意的,但对于您的示例,相似性为零,因为根本没有重叠。如果要查看术语的相似性,则需要不同的方法。
为此,您需要计算出两个术语的成对相似性,然后您可以将它们替换为相应指标中的相等性。