问题标签 [fuzzywuzzy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
jar - 如何使用 3rd 方罐子(例如,fuzzywuzzy)运行 PySpark?
尝试了--jars 选项和--driver-class-jars 等。它仍然给了我“没有模块fuzzywuzzy”发现错误。
python - 在熊猫数据框中模糊匹配两个字符串的最快方法
我有两个带有名单的数据框
我正在使用模糊 wuzzy 使用以下代码从 df2 获取 df1 条目的最佳匹配:
但这需要很长时间才能完成。有没有更快的方法来对 pandas 中的字符串进行模糊匹配?
python - Python模糊匹配只有名字首字母的名字
我有一种情况,我需要将给定字符串中的名称与名称数据库进行匹配。下面我给出了一个非常简单的例子来说明我遇到的问题,我不清楚为什么一个案例比另一个案例有效?如果我没记错的话,extractOne() 的 Python 默认算法是 Levenshtein 距离算法。是因为克莱门斯的名字提供了前两个名字的首字母,而冈萨雷斯只有一个名字吗?
输出:
python - sklearn:想扩展 CountVectorizer 以对词汇进行模糊匹配
我打算尝试使用带有经过调整的可接受分数参数的fuzzywuzzy,它基本上会检查单词是否在词汇表中,如果不是,它会要求fuzzywuzzy选择最佳模糊匹配,并接受它作为列表如果它至少是某个分数,则标记。
如果这不是处理大量拼写错误和拼写略有不同但相似的单词的最佳方法,我愿意接受建议。
问题是子类一直抱怨它有一个空的词汇表,这没有任何意义,因为当我在代码的同一部分使用常规计数矢量化器时它工作正常。
它会吐出许多这样的错误:ValueError:空词汇;也许文档只包含停用词
我错过了什么?我还没有让它做任何特别的事情。它应该像往常一样工作:
python - 计算两个熊猫数据帧的字符串之间的距离
我有2个数据框:
我想找到相似的行,为此,我需要找到Name
两个数据帧之间的相似性我现在正在迭代每个数据帧并计算与另一个数据帧的所有其他行的相似性(这非常耗时)并找到最大值,如果它大于某个阈值,我将对其进行处理。
每次迭代后我得到
max 函数应该返回哪个:
这意味着数据框 1 中的第 1 行类似于数据框 2 中的第 4 行。
我想知道有没有更好的方法可以一次性计算距离并移除内环?name
并找到第一个数据帧中每一行 ( ) 与第二个数据帧的最佳匹配?
预期输出:对于数据帧 1 中的每一行,我喜欢获取数据帧(只是一个简单的索引),它显示数据帧 2 中的哪一行是最相同的。
python - Pandas DataFrame 模糊/最接近匹配合并
我有一个 Pandas DataFrame 1(下面的片段):
我已经生成了另一个带有一些类似标题的 Dataframe 2。我需要在“日期”(日期时间对象)、纬度和经度(整数)列下匹配并合并两个df中的行。
我知道python的fuzzywuzzy模块,但不确定它的用途。
python - 多个值python的字符串比较
我有一组数据。第一个 (A) 是具有复杂名称的设备列表。第二个是更广泛的设备类别 (B) 的列表 - 我必须使用字符串比较将第一个列表分组到其中。我知道这不会是完美的。
对于列表 A 中的每个实体 - 我想为列表 B 中的每个实体建立 levenshtein 距离。列表 B 中得分最高的记录将是我将分配该数据点的组。
我在 python 中非常生疏 - 我正在玩 FuzzyWuzzy 来获取两个字符串值之间的距离。但是 - 我不太清楚如何遍历每个列表来产生我需要的东西。
我以为我只是为每个数据集创建一个列表并为每个数据集编写一个非常基本的循环 - 但就像我说的那样,我有点生疏并且没有任何运气。
任何帮助将不胜感激!如果有另一个包可以让我这样做(不是 Fuzzy) - 我很高兴接受建议。
python - Pandas: How can I iterate a for loop over 2 different data-frames?
I am trying to calculate fuzz ratios for multiple rows in 2 data frames:
df1:
df2:
I want to calculate the fuzz ratio between all the values in df1.name and df2.name_2:
To do that I have code:
But I want the final result to have the ids from df1 as well. It would ideally look like this:
final_df:
Thanks for the help!
python - Python.-fuzzy.DMetaphone 'ascii' 错误
这怎么可能,使用相同的输入我有时会ascii codec
出错,有时它工作得很好?代码清理名称并构建它的Soundex
和DMetaphone
值。它在 5 次运行中有 1 次运行,有时更频繁:)
UPD:看起来这是一个问题fuzzy.DMetaphone
,至少在带有 Unicode 的 Python2.7 上是这样。现在计划集成Metaphone。fuzzy.DMetaphone
非常欢迎所有问题的解决方案:)
UPD 2:fuzzy
更新到 1.2.2后问题消失了。相同的代码工作正常。
输出:
r - R中的模糊匹配
我正在尝试检测打开的文本字段(阅读:混乱!)与名称向量之间的匹配。我创建了一个愚蠢的水果示例,突出了我的主要挑战。
如果你愿意的话,我的方法会抓住低垂的果实(“Apple”和“banana”的精确匹配)。
无与伦比的案例有不同的挑战:
- 案例 2 和 6 中的目标水果被嵌入到较大的字符串中。
- 3 和 4 中的目标水果需要模糊匹配。
该fuzzywuzzyR
软件包很棒并且做得很好(有关安装 python 模块的详细信息,请参阅页面)。
此设置为“apple”(最高)返回 80 分。
除了 ,还有其他方法可以考虑fuzzywuzzyR
吗?你将如何解决这个问题?
添加fuzzywuzzyR
输出: