问题标签 [sequencematcher]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
423 浏览

python - 使用 SequenceMatcher 查找多个字符串中的常见片段

我想在以下之间找到公共字符串:strings_list = ['PS1 123456 Test', 'PS1 758922 Test', 'PS1 978242 Test']

以下代码仅返回第一部分“PS1 1”,我想结果是“PS1 Test”。你能帮我吗,是否可以使用 SequenceMatcher 获得?先感谢您!

0 投票
0 回答
107 浏览

python - 模糊模糊令牌排序与 difflib 序列匹配器

我试图弄清楚两者之间的区别。对于相同的字符串,我使用两者得到相同的结果(相似度分数)。

  1. 有人可以使用每个公式解释两者之间的区别吗?
  2. 知道一个比另一个快吗?

在此处输入图像描述

0 投票
1 回答
51 浏览

python - 我如何匹配 SequenceMatcher 的最佳比例

我使用 SequenceMatcher 比率来匹配具有最佳比率的两个数据帧。

我想先检查分数 A 和 AA 是否好,然后检查 B 之间的分数是否 BB 好,然后如果 C 和 CC 之间的分数好,然后我添加该行

我想要这样的数据框:

我试过这个功能,但它不起作用:

0 投票
1 回答
16 浏览

python-3.x - chaquopy 是否支持 SequenceMatcher

chaquopy 支持吗

或 pip 将首先安装,什么 pip 将用于使用 SequenceMatcher

0 投票
1 回答
40 浏览

python - 当连接列有轻微的拼写差异时,如何将列合并/添加到 pandas 中的数据框?

所以我有一个这样的数据框

我的另一本词典有

所以你可能已经看到了这个问题,Andaman and Nicobar Islands两者都存在但拼写不同,就像' Andaman & Nicobar Island'在字典中一样。这使得最后一列 NaN
9 10 Andaman and Nicobar Islands 219842.0 NaN

如何将其与 difflib 库结合使用?

我试过了

有什么我想念的吗?如何处理列以获得最佳匹配?

0 投票
0 回答
19 浏览

python-3.x - 序列聚类检测欺诈电子邮件

我有如下用户交易数据:

这是一个大数据集,这里我只展示了 2 个欺诈用户的例子。我想捕获这些类型的电子邮件。我想到使用序列聚类。有人知道可以在 python-3.x 中实现的任何此类算法吗?

0 投票
1 回答
37 浏览

python - Python中针对每个字符的多个选项列表查找最长字符串子集的最佳方法

我有一个简单的字符串和一个集合列表,其中每个集合是一个包含 2 个可能字符的位置,如下所示:

“AGTCG”

[('A', 'T'), ('C', 'B'), ('G', 'T'), ('T', 'X'), ... ]

我想在哪里找到最长的匹配。在本例中,它将是“TCG”。每组永远不会有超过 2 个字符。我想出的最佳解决方案是使用字符组合(ACGT...、ACGX...、ACTT...等)生成每个可能的字符串,然后使用 difflab SequenceMatcher.find_longest_match 并找到最大的结果. 我怀疑有更好的方法,但很难找到其他选择。有没有更好的办法?

0 投票
1 回答
23 浏览

pandas - 使用 difflib 将字符串与数据框中的行进行比较

我有一个字符串

和一个 DF

我想添加一个名为“分数”的列,并根据我的电子邮件字符串对每个 email_address 进行评分。我试过:

但它总是将所有内容评分为 0.0,即使我使字符串电子邮件与 df 中的一封电子邮件完全匹配。

背景是我们在注册多个帐户时遇到问题,因此我们希望能够搜索电子邮件并查看是否已经存在任何类似的电子邮件。

我也对这个问题的不同方法持开放态度。谢谢!

0 投票
0 回答
64 浏览

python - 如何将与操作码相关的已定义函数的输出写入熊猫数据框中的新列

我正在尝试将定义函数的输出写入熊猫数据框的新列中并将其导出到 excel,但是当我打开 excel 时,我在派生列中看到空白值。

示例和使用的代码如下。

数据框名称 = 数据

Text1 我就是现代少将的楷模

Text2 我就是卡通人物的典范

使用打印命令时收到的输出

在此处输入图像描述