问题标签 [sequencematcher]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 SequenceMatcher 查找多个字符串中的常见片段
我想在以下之间找到公共字符串:strings_list = ['PS1 123456 Test', 'PS1 758922 Test', 'PS1 978242 Test']
以下代码仅返回第一部分“PS1 1”,我想结果是“PS1 Test”。你能帮我吗,是否可以使用 SequenceMatcher 获得?先感谢您!
python - 我如何匹配 SequenceMatcher 的最佳比例
我使用 SequenceMatcher 比率来匹配具有最佳比率的两个数据帧。
我想先检查分数 A 和 AA 是否好,然后检查 B 之间的分数是否 BB 好,然后如果 C 和 CC 之间的分数好,然后我添加该行
我想要这样的数据框:
我试过这个功能,但它不起作用:
python-3.x - chaquopy 是否支持 SequenceMatcher
chaquopy 支持吗
或 pip 将首先安装,什么 pip 将用于使用 SequenceMatcher
python - 当连接列有轻微的拼写差异时,如何将列合并/添加到 pandas 中的数据框?
所以我有一个这样的数据框
我的另一本词典有
所以你可能已经看到了这个问题,Andaman and Nicobar Islands
两者都存在但拼写不同,就像' Andaman & Nicobar Island'
在字典中一样。这使得最后一列 NaN
9 10 Andaman and Nicobar Islands 219842.0 NaN
如何将其与 difflib 库结合使用?
我试过了
和
有什么我想念的吗?如何处理列以获得最佳匹配?
python-3.x - 序列聚类检测欺诈电子邮件
我有如下用户交易数据:
这是一个大数据集,这里我只展示了 2 个欺诈用户的例子。我想捕获这些类型的电子邮件。我想到使用序列聚类。有人知道可以在 python-3.x 中实现的任何此类算法吗?
python - Python中针对每个字符的多个选项列表查找最长字符串子集的最佳方法
我有一个简单的字符串和一个集合列表,其中每个集合是一个包含 2 个可能字符的位置,如下所示:
“AGTCG”
[('A', 'T'), ('C', 'B'), ('G', 'T'), ('T', 'X'), ... ]
我想在哪里找到最长的匹配。在本例中,它将是“TCG”。每组永远不会有超过 2 个字符。我想出的最佳解决方案是使用字符组合(ACGT...、ACGX...、ACTT...等)生成每个可能的字符串,然后使用 difflab SequenceMatcher.find_longest_match 并找到最大的结果. 我怀疑有更好的方法,但很难找到其他选择。有没有更好的办法?
pandas - 使用 difflib 将字符串与数据框中的行进行比较
我有一个字符串
和一个 DF
我想添加一个名为“分数”的列,并根据我的电子邮件字符串对每个 email_address 进行评分。我试过:
但它总是将所有内容评分为 0.0,即使我使字符串电子邮件与 df 中的一封电子邮件完全匹配。
背景是我们在注册多个帐户时遇到问题,因此我们希望能够搜索电子邮件并查看是否已经存在任何类似的电子邮件。
我也对这个问题的不同方法持开放态度。谢谢!