python - 计算一组字符串的相似度（推文）

Question

我有一个应用程序可以显示大约 100 条热门话题的推文。问题是它们中的很多都非常相似（即相同的推文具有不同的 url），这就是为什么我想忽略非常相似的推文。

我正在尝试找到一种有效的方法来使用 python 做到这一点。我正在考虑使用：http ://code.google.com/p/pylevenshtein/来解决这个问题，但我必须将很多推文相互比较，也许有更简单的方法。

score 2 · Accepted Answer

2

尝试difflib.get_close_matches将每条推文与其他推文进行比较。

于 2012-06-28T23:42:32.040 回答

score 2 · Accepted Answer

你真的要试试difflib，它有一些很酷的东西。这是我的最爱之一：

>>>from difflib import SequenceMatcher as sm
>>> dif = sm(a='hello', b='maybe hello')
>>> dif.ratio()
0.625
>>> dif = sm(a='hello', b='Hello')
>>> dif.ratio()
0.8
>>> dif = sm(a=[1,2,3,4], b=[2,3,5,6])
>>> dif.ratio()
0.5

python - 计算一组字符串的相似度（推文）

2 回答 2

Related

Reference