78

我正在努力完成的是一个程序,它读取一个文件并根据原始句子比较每个句子。与原文完全匹配的句子将获得 1 分,完全相反的句子将获得 0 分。所有其他模糊句子将获得介于 1 和 0 之间的分数。

我不确定使用哪个操作可以让我在 Python 3 中完成此操作。

我已经包含了示例文本,其中 Text 1 是原始文本,其他前面的字符串是比较。

文本:示例

文本 1:那是一个黑暗而暴风雨的夜晚。我一个人坐在红色的椅子上。我并不孤单,因为我养了三只猫。

文本 20:那是一个阴暗的暴风雨之夜。我一个人坐在深红色的椅子上。我并不完全孤单,因为我有三只猫科动物//应该得分高,但不是 1

文本 21:那是一个阴暗而暴风雨的夜晚。我一个人坐在深红色的大教堂上。我并不完全孤单,因为我有三只猫科动物 // 得分应该低于文本 20

文本 22:我一个人坐在深红色的大教堂上。我并不完全孤单,因为我有三只猫科动物。这是一个阴暗而暴风雨的夜晚。// 得分应该低于文本 21 但不是 0

文本 24:那是一个黑暗而暴风雨的夜晚。我并不孤单。我没有坐在红色的椅子上。我养了三只猫。// 应该得 0 分!

4

5 回答 5

116

有一个包叫fuzzywuzzy. 通过 pip 安装:

pip install fuzzywuzzy

简单用法:

>>> from fuzzywuzzy import fuzz
>>> fuzz.ratio("this is a test", "this is a test!")
    96

该软件包建立在difflib. 你问为什么不直接使用它?除了更简单之外,它还有许多不同的匹配方法(如令牌顺序不敏感、部分字符串匹配),使其在实践中更加强大。这些process.extract函数特别有用:从一组中找到最匹配的字符串和比率。从他们的自述文件中:

部分比率

>>> fuzz.partial_ratio("this is a test", "this is a test!")
    100

令牌排序率

>>> fuzz.ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")
    90
>>> fuzz.token_sort_ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")
    100

代币集比率

>>> fuzz.token_sort_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear")
    84
>>> fuzz.token_set_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear")
    100

过程

>>> choices = ["Atlanta Falcons", "New York Jets", "New York Giants", "Dallas Cowboys"]
>>> process.extract("new york jets", choices, limit=2)
    [('New York Jets', 100), ('New York Giants', 78)]
>>> process.extractOne("cowboys", choices)
    ("Dallas Cowboys", 90)
于 2015-02-12T01:29:16.897 回答
92

标准库中有一个模块(称为difflib),可以比较字符串并根据它们的相似性返回一个分数。SequenceMatcher班级应该做你想做的事。

来自 Python 提示的小例子:

>>> from difflib import SequenceMatcher as SM
>>> s1 = ' It was a dark and stormy night. I was all alone sitting on a red chair. I was not completely alone as I had three cats.'
>>> s2 = ' It was a murky and stormy night. I was all alone sitting on a crimson chair. I was not completely alone as I had three felines.'
>>> SM(None, s1, s2).ratio()
0.9112903225806451
于 2012-04-30T12:13:28.407 回答
17

fuzzyset索引和搜索都比fuzzywuzzy( )快得多。difflib

from fuzzyset import FuzzySet
corpus = """It was a murky and stormy night. I was all alone sitting on a crimson chair. I was not completely alone as I had three felines
    It was a murky and tempestuous night. I was all alone sitting on a crimson cathedra. I was not completely alone as I had three felines
    I was all alone sitting on a crimson cathedra. I was not completely alone as I had three felines. It was a murky and tempestuous night.
    It was a dark and stormy night. I was not alone. I was not sitting on a red chair. I had three cats."""
corpus = [line.lstrip() for line in corpus.split("\n")]
fs = FuzzySet(corpus)
query = "It was a dark and stormy night. I was all alone sitting on a red chair. I was not completely alone as I had three cats."
fs.get(query)
# [(0.873015873015873, 'It was a murky and stormy night. I was all alone sitting on a crimson chair. I was not completely alone as I had three felines')]

警告:小心不要在你的模糊集中混合unicodebytes

于 2016-07-11T21:19:18.733 回答
9

该任务称为释义识别,这是自然语言处理研究的一个活跃领域。我已经链接了几篇最先进的论文,其中许多你可以在 GitHub 上找到开源代码。

请注意,所有已回答的问题都假设两个句子之间存在一些字符串/表面相似性,而实际上两个字符串相似性很小的句子在语义上可能是相似的。

如果您对这种相似性感兴趣,可以使用Skip-Thoughts。根据 GitHub 指南安装软件并转到自述文件中的释义检测部分:

import skipthoughts
model = skipthoughts.load_model()
vectors = skipthoughts.encode(model, X_sentences)

这会将您的句子(X_sentences)转换为向量。稍后您可以通过以下方式找到两个向量的相似性:

similarity = 1 - scipy.spatial.distance.cosine(vectors[0], vectors[1])

我们假设向量 [0] 和向量1是 X_sentences[0]、X_sentences 1的对应向量,您想找到它们的分数。

还有其他模型可以将句子转换为向量,您可以在此处找到。

一旦你将你的句子转换成向量,相似度只是找到这些向量之间的余弦相似度的问题。

2020 年更新谷歌发布了 一款名为BERT的新模型,它基于一个名为 Tensorflow 的深度学习框架。还有一个许多人觉得更容易使用的实现,称为Transformers. 这些程序所做的是,它们接受两个短语或句子,并且能够训练它们说出这两个短语/句子是否相同。要训​​练它们,您需要一些标签为 1 或 0 的句子(如果它们具有相同的含义或不同)。您使用您的训练数据(已经标记的数据)训练这些模型,然后您将能够使用经过训练的模型来预测一对新的短语/句子。您可以在它们相应的 github 页面或许多其他地方(例如这里)找到如何训练(他们称之为微调)这些模型。

也有可用的英文标记训练数据,称为 MRPC(微软释义识别语料库)。请注意,BERT 也存在多语言或特定语言版本,因此该模型也可以在其他语言中扩展(例如训练)。

于 2016-11-23T02:40:05.810 回答
0

还有这个由 MIT 授权的快速准确的模糊比较库: https ://github.com/maxbachmann/RapidFuzz

于 2022-02-01T00:22:29.743 回答