python - Python字符串比较相似度

Question

我正在尝试比较两个数据列表，其中包含一些表示同一对象的自由文本。例子

List 1 ['abc LLC','xyz, LLC']
List 2 ['abc , LLC','xyz LLC']

这是一个简单的例子，但问题是可能会有很多变化，比如改变大小写或添加一些“。” 介于两者之间。是否有任何 python 包可以进行比较并给出相似度的度量？

score 7 · Accepted Answer

您可以使用Levenshtein Distance算法的实现来进行非精确字符串匹配，例如来自 Wikibooks 的这个。

另一种选择是，例如，在原始比较之前将所有内容折叠为小写、删除空格等——这当然取决于您的用例：

import string, unicodedata
allowed = string.letters + string.digits
def fold(s):
  s = unicodedata.normalize("NFKD", unicode(s).lower()).encode("ascii", "ignore")
  s = "".join(c for c in s if c in allowed)
  return s

for example in ['abc LLC','xyz, LLC', 'abc , LLC','xyz LLC']:
  print "%r -> %r" % (example, fold(example))

会打印

'abc LLC' -> 'abcllc'
'xyz, LLC' -> 'xyzllc'
'abc , LLC' -> 'abcllc'
'xyz LLC' -> 'xyzllc'

score 3 · Accepted Answer

有一个优秀的二进制库，它使用字符串之间的 levenshtein 距离（编辑距离）来估计相似度。试试看：

https://github.com/miohtama/python-Levenshtein

python - Python字符串比较相似度

2 回答 2

Related

Reference