2
  1. 我需要将一个长列表中所有句子的相似度量化为一个句子。也许使用 Levenshtein 或 difflib。
  2. 然后,我必须删除列表中那些超过某个给定阈值的句子,比如 difflib 中的 90%。

你们能帮忙吗?谢谢!

4

1 回答 1

4
>>> mylist = ['ham and eggs', 'spam and legs', "it's time to die, mr bond!"]
>>> import difflib
>>> close_matches = difflib.get_close_matches('spam and eggs', mylist)
>>> close_matches
['spam and legs', 'ham and eggs']
>>> set(mylist) - set(close_matches)
set(["it's time to die, mr bond!"])
于 2012-12-04T05:04:41.450 回答