问题标签 [textmatching]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
101 浏览

python - 在文件中打印不匹配(唯一)的行

我正在尝试创建一个打开文件(filename)的函数,打印与前一行不同的每一行文本(始终写入第一行)。每个输出行都应以其在输入文件中的行号为前缀。

我想出了以下内容,无论它是否是重复行,它都会始终打印文本的最后一行:

我似乎无法弄清楚我的代码中的缺陷在哪里以及解决这个问题的原因是什么?

谢谢大家,都很有帮助,用过打勾了!

0 投票
1 回答
215 浏览

java - 我可以从内部动作监听器中设置类中的数组吗?JAVA

基本上我需要做的就是从我的每个buttonlisteners中获取array1和array2,我不知道如何做到这一点。现在TextMatch按钮不起作用,因为array1和array2是空的,有没有办法从 buttonlistener 类中设置它们?我需要的只是一种将array1和array2设置为ss和sstwo的方法,这样我就可以实现我的TextTools.match()方法

主程序:

文字匹配程序:

0 投票
1 回答
1150 浏览

tf-idf - 匹配 2 个文本文档的最佳方法

我正在尝试制作这样一个软件,它可以智能地制作 2 个文本文档,有点像检查文本匹配的程度,不像 DIFF 我在 Google 上搜索过,我发现了 2 个东西,即 Graph 和 TFIDF。

但是我对它们都感到困惑,我不知道哪个更好,还有其他技术可以匹配文本文档

0 投票
4 回答
2688 浏览

solr - 使用空格、连字符、大小写和标点符号的各种组合进行搜索

我的架构:

我想工作的组合:

“沃尔玛”、“沃尔玛”、“沃尔玛”、“沃尔玛”、“沃尔玛”

给定这些字符串中的任何一个,我想找到另一个。

因此,有 25 种这样的组合,如下所示:

(第一列表示搜索的输入文本,第二列表示预期匹配)

我的架构的当前限制:

分析仪截图:

使用初始模式的分析器屏幕截图

我尝试了各种过滤器组合以试图解决这些限制,所以我被以下提供的解决方案绊倒了:Solr - case-insensitive search do not work

虽然它似乎克服了我的限制之一(参见#5 WalMart -> Walmart),但总体上比我之前的要差。现在它不适用于以下情况:

架构更改后的分析器: 在此处输入图像描述

问题:

  1. 为什么“WalMart”与我的初始模式不匹配“Walmart”?Solr 分析器清楚地向我显示它在索引时间内产生了 3 个令牌:wal, mart, walmart. 在查询期间:它产生了 1 个令牌:(walmart虽然不清楚为什么它只会产生 1 个令牌),但我不明白为什么它不匹配,因为它walmart包含在查询和索引令牌中。

  2. 我在这里提到的问题只是一个用例。还有一些稍微复杂的,例如:

    带撇号的单词:“Mc Donalds”、“Mc Donald's”、“McDonald's”、“Mc donalds”、“Mc donald's”、“Mcdonald's”

    带有不同标点符号的单词:“Mc-Donald Engineering Company, Inc.”

一般来说,用这种需求对模式进行建模的最佳方法是什么?NGram ? 索引不同字段(不同格式)中的相同数据并使用 copyField 指令(https://wiki.apache.org/solr/SchemaXml#Indexing_same_data_in_multiple_fields)?这对性能有何影响?

编辑:我的 Solr 架构中的默认运算符是 AND。我无法将其更改为 OR。

0 投票
1 回答
534 浏览

nlp - 如何对名称不同但语义基本相同的公司进行分组?

我正在使用来自英国公共部门的开放政府数据进行竞争对手分析。但是我的结果有一些异常。当我按公司名称对合同进行分组时,会出现很多问题,例如公司拼写错误或名称不同。例如 HP、Hewlett-Packard、Hewlett-Packard Limited、ibm、ibm UK、ibm UK Limited 等。问题是我已经运行了我的代码并手动修复了结果。现在我已经更改了部分代码,需要再次运行它。但我不能再回去做同样的事情,因为它很昂贵。目前我正在考虑编写一个通用规则,按字母顺序对这些公司进行排序,并在它们匹配前几个单词时合并它们。但这不是一个完全可靠的方法,因为惠普和惠普会有所不同。有没有人做过类似的工作或者可以参考我他们的工作。我将感激不尽。谢谢。

0 投票
2 回答
847 浏览

javascript - Javascript/Jquery:如何提醒包含我的搜索的标签文本?

嗨,我已经搜索并发现了不同的东西,这些东西松散地围绕着这个和一些更紧密地联系在一起,但我无法为我遇到的问题设计和创建一个可行的解决方案:

概括:

由于我的要求,我希望以特定方式创建视图。这目前正在考虑使用自我实现的 Treeview 样式 - 目前我不希望使用任何其他类型的插件或预制视图,因为正如您在底部附加的 JS fiddle 演示中看到的那样,我可以自己实现这一点。

手头的问题:

这可能非常简单或简单,如果是这样,请原谅我的无能,但问题归结为标签 - 中间有文字,如下所示:

现在我可以毫无问题地检索这些值 - 因为它们的列表中有很多(每个选项一个)。但最终问题的根源是将这些与我的搜索输入相匹配。虽然我对每个循环都使用了非常明显和通用的方法,但实际上匹配“输入” - 我的搜索输入变量 - 和标签的文本 - 因此它不会提醒正确的值,有时会提醒所有 15 个值当只有 4 个可能匹配时...

任何帮助都将不胜感激 - 随意使用任何与选择框一起工作得非常好的树视图代码。

边注

在我的实际视图中,这些复选框将与使用对象类填充值的标签名称相关联。我也想要,不是真正提醒匹配的标签,而是突出它们 - 所以如果有人可以帮助解决这个问题或提出任何好的建议 - 虽然不是关键问题。(抱歉,我知道这对您没有帮助或用处,但我想我会启发您了解我提醒这些标签的原因。)

我的 JS FIDDLE 演示 - 树状视图- 编辑:这是我需要的答案(我将把它留在这里,以防其他人想使用它),由 Radu Andrei 完美提供的答案


编辑:除了标签文本与搜索文本匹配的事实之外,我不希望根据任何标准发出警报。

0 投票
5 回答
8649 浏览

sql - 如何在查询中使用 LIKE 来查找多个单词?

我有一个客户表

我想搜索一个可能John Matt没有deo字符串的客户。如何为此使用 LIKE 条件?

结果应该获取第 1 行。

如果搜索字符串是Matt Deojohn

尝试查找确切名称时无法执行上述操作。即使给出了 2 个字符串,我如何进行 LIKE 查询来获取客户?

0 投票
1 回答
63 浏览

textmatching - 匹配两个字符串中的单词时的字符串匹配算法?

例如,当字符串 A 总共有 10 个单词而字符串 B 总共有 100 个单词时,字符串 A 中的所有单词都在字符串 B 中找到,结果将是 100% 匹配。如果找到一半,则为 50% 匹配。什么算法会产生这样的结果?

0 投票
5 回答
2624 浏览

python - 用键中的空格替换 Python 字典

我有一个字符串和一个字典,我必须替换该文本中每次出现的 dict 键。

如果键中没有空格,我会将文本分解为单词并与 dict 进行一一比较。看起来花了O(n)。但是现在钥匙里面有空间,所以事情更加复杂。请建议我这样做的好方法,请注意密钥可能与文本的大小写不匹配。

更新

我已经想到了这个解决方案,但效率不高。O(m*n) 或更多...

0 投票
1 回答
1300 浏览

r - R 或任何机器学习平台中的交叉数据匹配算法(单独的数据集)

我有两个数据集。一份是合同细节,另一份是组织细节。例如:一个数据集有详细信息——公司名称、描述、公司类型。其他数据集有详细信息——合同名称、合同描述、CPV 代码。我想要一种算法,它可以 1) 给定一家公司,我们能否找到与该公司最密切相关或可能感兴趣的前 10 份合同。2. 或者给定一份合同,我们能否找到最有可能投标或赢得合同的公司。这可能是一种一次性的实时算法,用于将第一个数据集的一行匹配到第二个数据集中的最佳匹配集群。是否可以在两个不同的数据集中进行这种逐行交叉匹配?是否可以使用文本描述进行这种匹配?如果有人有代码示例,那将有很大帮助。谢谢你。

公司资料

合同数据