问题标签 [textmatching]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
67 浏览

mysql - 按相关性的文本匹配顺序

在 MySQL 中,有没有一种方法可以按照也用于过滤结果的规则集的顺序对结果进行排序?

例如,如果我们有一个名称字段和用户输入,那么我想过滤和排序记录如下

如果我们将输入与名称字段匹配

  1. 完全符合
  2. 输入精确匹配名称的第一个关键字
  3. 输入精确匹配名称的第二个关键字
  4. 名称以第一个关键字开头
  5. 名称以第二个关键字开头

我想根据上述情况过滤结果,并按上面列出的顺序对它们进行排序。

输入:二三

数据:
| 一个 |
| 二 |
| 三 |
| 一二三|
| 一三二 |
| 三一二 |
| 二三一|

输出:
| 二 |
| 三 |
| 二三一|
| 三一二 |

全文搜索可能是一个可能的解决方案,但根据我过去的经验,它并不总是给出预期的相关性值来以上述方式准确排序。

0 投票
3 回答
48 浏览

mysql - 使用 IN 语句进行文本匹配的 mySQL 问题

我有一个较大的表(200 万行),其中有一列包含文本标识符(这些是物种的拉丁名称、Homo_sapiens、Tyranosaurus_rex 等)

我有另一个包含拉丁名称和物种“常见”名称的表,我可以查询它以获得拉丁名称的一小部分(约 140 个名称),其中一些映射到第一个表中。我想获取第一个表中的行,其名称完全映射到这个小选择。我用来获取小选择(只有 140 行)的查询运行速度很快,因为通用名称有一个 mySQL 'FULLTEXT' 索引

但是,如果我尝试使用 SQLIN运算符将这些匹配到 200 万行的大表中,则需要很多分钟,

即使我在 latin_name 列上设置了全文和普通索引也是如此。

我怎样才能加快速度?IN使用带有索引文本字段的运算符是否有问题?如果是这样,是否有某种特殊的“完全匹配”索引可以用于文本字段?latin_name 字段都是“VARCHAR”类型,并且在小表中最大长度为 190,在大表中最大长度为 200,如果这有什么不同的话。

谢谢你的帮助


根据要求 - 以下是表定义:

0 投票
0 回答
1380 浏览

python - 文本匹配,语义相似度,匹配相似的短语/词 python 语义 wordNet FuzzyMatch

通过使用 wordnet 文本匹配,我意识到 wordnet 只能将单个单词匹配到单个单词。它不能将单个单词与短语匹配。

如您所见,我有两个列表。

list2 包含单个单词和短语。比如关系、管理职位……

目前我使用 wordnet 来查找相似性

结果:

问题是 wordnet 只比较单个词,它不比较单个词与列表中的短语之间的相似度2。

那么如何解决这个问题呢?

0 投票
2 回答
780 浏览

python - 如何使用 Python 逐行匹配两个纯文本文件

根据我的要求,我希望在 Windows 平台上的 Python 中逐行匹配两个文本文件。例如我有以下文本文件:

文件1:

我的名字是xxx

命令成功完成。

我妈妈叫yyy

我的手机号码是12345

半夜,重型卡车撞上大楼

卡车在学院吃一个红苹果

文件2:

我的名字是xxx

命令 。成功地。

我妈妈的名字是

撞上大楼的卡车是多么重啊

卡车在学院吃苹果

我为不够清楚而道歉,所以我的问题是如何将脚本电影与其字幕对齐,我用 Python 编写了以下代码,但这还不足以从两个文本文件中获得对齐:

如果有人能帮忙做这个匹配,我将不胜感激。

0 投票
1 回答
1645 浏览

r - R中的字符串聚类序列

我必须关注数据:

我想要的是另一列,它根据观察相似性为每一行分配一个类别。

它是更广泛意义上的聚类,但我认为大多数聚类方法仅适用于数字数据,并且单热编码有很多缺点(这是我在互联网上读到的)。

有谁知道如何完成这项任务?也许一些单词匹配方法?

如果我可以根据参数调整相似度(粗略与体面的“聚类”),那也很棒。

提前感谢您的任何想法!

0 投票
1 回答
74 浏览

r - 从电子邮件主题行中提取特定患者 ID

我希望从电子邮件主题行中提取患者 ID。我正在使用两个数据框:一个具有来自 SQL 数据库的输出(包含电子邮件主题行),另一个具有患者信息(医院名称和患者 ID)。

我想使用患者 ID 并从第一个数据帧中删除主题行,然后返回与所述患者关联的医院。不幸的是,我无法提供对数据的访问。

0 投票
1 回答
65 浏览

python - 非结构化文本/数字合并

我正在尝试匹配 2 个单独数据集中的字段。它们都是地址字段。一个数据集可能包含“532 Sheffield Dr”之类的内容,而另一个数据集可能仅包含“Sheffield Dr”。另一个例子是“US21 Ramp and Hays RD”和“US 21”,“N 25th St and Danville RD”和“25th St”等等。所以基本上,即使第一个数据集中的数据可能包含一些额外的文本/数字,第二个数据集中列中的所有文本/数字都应该与第一个数据集的匹配。我一直在尝试使用 RegEx,但无法找出合适的代码。我该怎么做?

0 投票
2 回答
693 浏览

python - Python文本相似性和匹配-当术语在一起时增加权重

我在 pandas 中有两列包含一系列术语,我的目标是从 B 列中找到与 A 列中的条目最匹配的条目。我使用 TF-IDF 来查找两者之间的相似性两列,但这样做的问题是它会查找单个单词的出现,并且不会优先考虑组合在一起的单词。

我如何给一起出现的单词更多的权重?

例如,“The cat sat on the mat”应该更多地与带有短语“sat on the mat”的条目匹配,而不是与带有“cat horse sat dog on lion the pig mat”的条目匹配。

0 投票
1 回答
956 浏览

python - Python 文本匹配 - 同义词

我在 Pandas 中有两列:A 和 B,每列都包含术语字符串。我的目标是在 B 列中找到与 A 列最相似的条目。我已经在使用 TF-IDF 来执行此操作,但有时存在不明显匹配的同义词,例如货币和货币。

如何找到还包含同义词的匹配项?

0 投票
1 回答
748 浏览

php - 是否可以使用 Knuth-Morris-Pratt 算法进行文本到文本的字符串匹配?

我在 PHP 中有一个 KMP 代码,它可以在单词到文本之间进行字符串匹配。我想知道是否可以使用 KMP 算法进行文本到文本之间的字符串匹配。有没有可能?以及如何使用它来查找 2 个文本之间的字符串匹配。

这是KMP算法的核心:

如果我想在文本上查找单词,我将这个类调用到我的 index.php 中。

这是我希望我的代码执行的步骤:(1)。我输入文本 1 (2)。我输入文本 2 (3)。我希望文本 1 成为模式(文本 1 中的每个单词都被视为模式)(4)。我希望我的代码可以在文本 2 (5) 中的文本 1 上找到每个模式。最后,我的代码可以告诉我相似度的百分比。

希望大家能帮助我或者教教我。我一直在到处寻找答案,但还没有找到。至少你可以教我。