问题标签 [fuzzywuzzy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3456 浏览

python - 获取 python 模糊匹配的索引

我正在使用 Pythonfuzzywuzzy在句子列表中查找匹配项:

我正在尝试打印匹配以及它周围的句子:

不幸的是,脚本无法在原始列表中找到匹配项:

ValueError: (u'因此,除了上面提到的双重目的,这本书至少是为两个群体写的:1.', 59) 不在列表中

有没有更好的方法在原始列表中找到匹配的索引?有的可以fuzzywuzzy给我吗?自述文件中似乎没有任何关于它的内容。

如何获取由返回的匹配项的原始列表中的索引fuzzywuzzy

0 投票
1 回答
1582 浏览

pandas - 熊猫和模糊匹配

目前我有两个数据框。我正在尝试使用fuzzywuzzy 的process.extractOne 函数来获得客户端名称的模糊匹配。当我对示例数据运行以下脚本时,我得到了很好的结果并且没有错误,但是当我在当前数据帧上运行以下脚本时,我得到了一个属性和类型错误。出于安全原因,我无法提供数据,但如果有人能根据提供的脚本找出我收到错误的原因,我将非常感激。

我知道没有一些示例会使故障排除更加困难,因此我将回答任何问题并编辑帖子以帮助此过程。具体错误如下:

1.AttributeError: 'dict_keys' 对象没有属性 'items'

2.TypeError:预期的字符串或缓冲区

0 投票
2 回答
753 浏览

python - 对多值字典的嵌套列表中的所有值运行查询

我有一个'collections.defaultdict'(见下面的x),它是一个多值字典。与每个唯一键关联的所有值都存储在一个列表中。

我想使用 Python blurwuzzy 包来针对嵌套在多值字典中的所有值搜索目标字符串,并根据 Fuzzywuzzy 的内置编辑距离公式返回前 5 个匹配项。

然后我将运行一个过程,该过程采用最接近的匹配(具有最高模糊率分数的值)并识别最接近的匹配值与哪个键相关联。在这个例子中,最接近的匹配值当然是 'bc' 并且关联的键是 'b'。

我的问题是:我如何对字典嵌套列表中的所有值运行fuzzywuzzy 查询?当我运行上面的fuzzywuzzy 过程时,我得到一个TypeError:预期的字符串或缓冲区。

0 投票
4 回答
21386 浏览

python - 没有名为fuzzywuzzy的模块

我用 pip 为 python3 安装了fuzzywuzzy。当我做 pip list 我看到

但是,当我尝试导入时出现错误。

有没有人有这个问题的经验?

0 投票
1 回答
9208 浏览

python - 将每一行与数据框中的所有行进行比较,并将每行的结果保存在列表中

我尝试将每一行与熊猫数据框中的所有行进行比较,fuzzywuzzy.fuzzy.partial_ratio() >= 85并将结果写入每行的列表中。

例子:

我想在库中使用 pandas 函数fuzzywuzzy来获得结果:

但我不明白如何得到这个。

0 投票
3 回答
1149 浏览

python - 模糊搜索 Python

我有一个很大的示例文本,例如:

“由于并发症,动脉高血压可能会影响患者的生存预后。TENSTATEN 进入预防性治疗(处理)的框架。他(她,其)报告(关系)不需要的效果/效果很重要. 利尿剂,是 TENSTATEN 的首选药物。治疗替代品非常多。”

而且我试图检测文本中是否“参与生存预后”,但以模糊的方式。例如“已参与生存的预后”也必须返回肯定的答案。

我研究了fuzzywuzzy、nltk和新的正则表达式模糊函数,但我没有找到办法:

0 投票
1 回答
811 浏览

python - 在 Python 中识别数据库中的相似字符串

我有一个包含超过一百万个字符串的数据库表。每个字符串是一个长度可以从两个单词到五个或六个不等的术语。

我还在 csv 文件中有一个包含数千个较小术语的黑名单。我想要做的是识别数据库中与我的 csv 文件中列入黑名单的术语相似的术语。这种情况下的相似性可以解释为黑名单术语的拼写错误。

我熟悉python中的库,例如fuzzywuzzy,它可以使用Levensthein距离评估字符串相似度并返回相似度的整数表示。本教程中的一个示例是:

这种方法的一个缺点是它可能会错误地识别可能在不同上下文中表示某事的术语。

一个简单的例子是“big butt”,一个列入黑名单的字符串,与“big but”等更无辜的字符串混淆。

我的问题是,是否可以在 python 中以编程方式完成此操作,或者仅检索所有相似的关键字并过滤误报会更容易?

0 投票
1 回答
2702 浏览

python - 如何使用 Pandas 对 excel 文件进行模糊匹配?

我有一个名为 account 的表,其中包含两列 - ID 和 NAME。ID 是唯一的哈希,但 NAME 是可能有重复的字符串。

我正在尝试编写一个 python 脚本来读取这个 excel 文件并匹配 0-3 个类似的 NAME 值,但我似乎无法让它工作。有人可以帮忙吗?谢谢

任何帮助将非常感激!

该文件有这样的行: -

预期(输出数据帧)将类似于:

问题:上面的代码只是将输入复制为输出保存的文件,而没有实际连接任何匹配项。

0 投票
1 回答
3342 浏览

python - 使用fuzzywuzzy在数据框中创建新列

我有一个数据框pandas,我在其中使用fuzzywuzzypython 中的包来匹配数据框中的第一列与第二列。

我已经定义了一个函数来创建具有第一列、第二列和部分比率分数的输出。但它不起作用。

能否请你帮忙

问候

-算盘

0 投票
1 回答
809 浏览

python - 如何在 nltk python 中处理 UnigramTagger 中的拼写错误?

我正在使用 python nltk 库进行命名实体识别。我正在使用UnigramTagger自定义标记标记。它的发生非常好。问题是标记器准确地标记了我在模型中提到的单词。任何拼写错误,它都找不到单词。我该如何解决这个问题?我喜欢如何fuzzywuzzy允许比率搜索,但不知道任何 nltk 标记器是否提供相同的功能。在这里需要一些帮助。谢谢。