问题标签 [fuzzywuzzy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python模块在bash中返回错误但不是来自IDLE
我是第一次在这里发帖的新手程序员。任何建议或意见,将不胜感激!我正在研究一个项目,该项目将 test.csv 与 ref.csv 的内容进行比较(两个单列都包含 3-4 个单词的字符串),并根据 test.csv 中的每个字符串与最相似的字符串的相似性为每个字符串分配一个分数ref.csv 中的字符串。我正在使用fuzzywuzzy字符串匹配模块来分配相似度分数。
以下代码片段获取两个输入文件,将它们转换为数组,并打印出数组:
问题是当我在 IDLE 中运行该脚本时,它按预期工作,但当我从 bash 调用它时返回以下错误:
我需要在 bash 中配置什么才能使其正常工作吗?还是 IDLE 没有捕捉到一些根本性的错误?为简单起见,我没有在此代码段中调用fuzzywuzzy 模块,但它在IDLE 中按预期工作。
最终,我想使用pylevenshtein,但我想看看我对这个脚本的使用是否有价值,然后再投入额外的时间来完成这项工作。
提前致谢。
python - 导入错误:没有名为“utils”的模块
请原谅我是新手。我正在尝试使用seatgeek 的fuzzywuzzy 模块。我正在使用 Python 3
最初,我收到此错误:
我将导入语句更改为导入fuzzywuzzy.fuzz,现在,我收到了这个错误:
python - FuzzyWuzzy 字符串匹配 - 区分大小写
我正在使用来自 SeatGeek 的 FuzzyWuzzy 字符串匹配模块。
我发现在使用 token_set_ratio 搜索算法时,大小写的微小差异会产生截然不同的结果。
例如,如果我在文件中查找短语“我正在吃东西”,我会得到 100% 的匹配。但是,如果短语是“我在吃”,仅 ONE 字母的变化,给我一个 65% 的匹配。
有没有办法让算法不区分大小写?
python - Python缺少模块v 2.7.3和Windows 7:安装了fuzzywuzzy,在powershell中导入,而不是在IDLE中
我敢打赌,这个问题有一个我不知道的简单解决方案,而且从谷歌搜索和堆栈溢出来看,它似乎与设置路径有关。
我的电脑上安装了 anaconda,它似乎使用 python 2.7.4。我还安装了 python 2.7.3,这似乎是我打开 IDLE 时使用的版本。当我使用'python setup.py install'安装fuzzywuzzy时,它安装在anaconda文件夹中并在powershell中使用python,命令'fromfuzzywuzzy import fuzz'工作正常,但是在IDLE中做同样的事情时,我得到一个缺少模块的错误。
有没有办法协调两个版本的 Python?我可以让他们共享包,或删除其中一个版本而不破坏一切吗?
我试过这样做:
''' 设置 PYTHONPATH / PYTHONHOME 变量
右键单击开始菜单中的计算机图标,转到属性。在左侧选项卡上,转到高级系统设置。在出现的窗口中,转到“高级”选项卡,然后在底部单击“环境变量”。单击用户变量列表并开始输入 Python,然后重复输入系统变量,以确保您没有为 PYTHONPATH 或 PYTHONHOME 设置错误的变量。接下来,添加新变量(我在 System 而不是 User 中添加,尽管它也可能对 User 有效):PYTHONPATH,设置为 C:\Python27\Lib。PYTHONHOME,设置为 C:\Python27。'''
然后重新安装了fuzzywuzzy,它安装在C:Python27文件夹中并在IDLE中工作,但现在Kivy不起作用!
我也需要重新安装吗?还是有路径共享修复?
python - Pandas 模糊合并/匹配名称列,有重复项
我目前有两个数据框,一个donors
用于fundraisers
. 我正在尝试查找是否有任何人fundraisers
也捐赠过,如果有,请将其中的一些信息复制到我的fundraiser
数据集中(捐赠者姓名、电子邮件和他们的第一次捐赠)。我的数据的问题是:
- 我需要按姓名和电子邮件进行匹配,但用户的姓名可能略有不同(例如“Kat”和“Kathy”)。
donors
和的名称重复fundraisers
:- 2a) 对于捐赠者,我可以获得唯一的姓名/电子邮件组合,因为我只关心第一个捐赠日期
- 2b)虽然我需要保留两行并且不会丢失日期等数据,但在筹款活动中。
我现在拥有的示例代码:
所以这给我留下了每个捐赠者的第一笔捐款(假设任何具有完全相同姓名和电子邮件的人都是同一个人)。
理想情况下,我希望我的fundraisers
数据集看起来像:
我尝试关注这个线程:是否可以与 python pandas 进行模糊匹配合并?但不断出现索引超出范围错误(猜测它不喜欢筹款活动中的重复名称):(那么有什么想法可以匹配/合并这些数据集吗?
用 for 循环来做(它有效,但速度非常慢,我觉得必须有更好的方法)
代码:
python - Python比较两个字符串列表的相似性
我是 Python 的新手,但我认为制作一个程序来对我的所有下载进行排序会很有趣,但我遇到了一些麻烦。如果我的目的地只有一个单词,它会完美运行,但如果目的地有两个或更多单词,这就是出错的地方,程序会陷入循环。有没有人比我有更好的想法来比较列表
这是列表输出的示例。
我有一个目标目录,其中只有文件夹和一个下载目录。我想制作一个程序来自动查看源文件名,然后查看目标名称。如果目标名称在源名称中,那么我可以继续并复制下载的文件,以便在我的收藏中对其进行排序。
现在我对只有“成功”作为输出感到满意。我会弄清楚如何复制文件,因为在不久的将来这对我来说将是一个完全不同的问题
python - python最高模糊率从列表中打印行
我有一个由一些行组成的列表。我想打印具有最高模糊率的匹配词“好”的行。
问题:它只打印单词而不是列表中的行
编码:
预期输出:
我从列表中得到一个单词而不是最高模糊值的行。请帮助修复我的代码!答案将不胜感激!
python - Fuzzywuzzy 导入错误怪异
我已经通过 pip install 将fuzzywuzzy安装到虚拟环境中[fuzzywuzzy==0.3.1]。
在 python 解释器(通过 ipython)中,我执行以下操作
效果很好,给了我一个结果。
接下来,我将以下内容写入文件(使用 Sublime Text):
当我在终端中运行它时,我收到以下错误:
文件“/Users/InNov8/Projects/datamine/_MiningScripts/fuzz-test2.py”,第 4 行,从fuzzywuzzy 导入fuzz ImportError:没有名为fuzzywuzzy 的模块
是否有任何原因导致模块成功导入解释器,但在从脚本执行时不会导入?
我在两者中都使用相同版本的python,即通过virtualenv
感谢您的任何建议!
python - 在 IPython Notebook 中安装fuzzywuzzy 时出错
我真的不知道如何使用代码安装库。我尝试使用模块 pip 在 IPython Notebook 中安装模糊伍兹,但我收到一条错误消息:
那么,如何使用代码正确安装fuzzywuzzy 和其他软件包?
python - 程序在使用 hadoop 的 AWS EMR 上失败(在本地机器上正常)
我正在尝试在映射程序中使用 python 的fuzzywuzzy 包来计算编辑距离。我的程序在本地机器上运行良好,但在 AWS emr 集群上失败。我尝试了以下两种方法(在本地机器和 AWS EMR 集群上):
1.通过安装fuzzywuzzy:
我在主节点和从节点上都使用 pip 安装了fuzzywuzzy。如果我注释掉下面代码的最后 4 行,我不会收到任何错误。但我想在我的程序中使用fuzzywuzzy。
我得到以下错误:
2.不安装fuzzywuzzy
我可以在 map-reduce 程序之上运行,而无需在本地机器上安装fuzzywuzzy。当我在 AWS EMR 上尝试相同时,它失败了。
我压缩了fuzzywuzzy 包(“temp.zip”)并在我的地图程序中调用它。我也将 temp.zip 文件复制到从节点。
!/usr/bin/python
import re import sys import os import csv
我得到以下错误:
有人可以指导我的代码有什么问题/如何在hadoop上运行fuzzywuzzy吗?