问题标签 [textmatching]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3862 浏览

excel - 如何在半复杂的 countifs() 公式中获得完全匹配

首先,我目前使用的公式:

=countifs('page1'!AF:AF,$L6,'page1'!AA:AA,"="&RIGHT(M$2,3))+countifs('page1'!AF:AF,$L6,'page1'!AB:AB,"="&RIGHT(M$2,3))+countifs('page1'!AF:AF,$L6,'page1'!AC:AC,"="&RIGHT(M$2,3))+countifs('page1'!AF:AF,$L6,'page1'!AD:AD,"="&RIGHT(M$2,3))+countifs('page1'!AF:AF,$L6,'page1'!AE:AE,"="&RIGHT(M$2,3))+countifs('page1'!AF:AF,$L6,'page1'!AF:AF,"="&RIGHT(M$2,3))

好吧,现在,我试图匹配的是:

问题是,如果在我正在寻找的范围内存在与上述术语松散匹配的模式,那么 countifs() 会在不完全评估整个字符串的情况下返回 true。换句话说,我专门在所述公式中寻找字符串“II-A”,但 countifs() 正在返回所有字符串的计数,这些字符串不仅是“II-A”而且也是“IA”。淘气的countifs()!

是否有捷径可寻。我真的不想重新思考/重写这些公式。我找到了一个名为exact() 的方法,但将其滚动起来似乎很痛苦。任何帮助将非常感激。


编辑 编辑 编辑

这是一个测试表...

=COUNTIFS($CC:$CC,"="&$C2,$AA:$AA,"="&$A1)+COUNTIFS($CC:$CC,"="&$C2,$BB:$BB,"="&$A1)

这个模拟测试公式的结果为 0,但我正在寻找的是 1,因为一个 IA 发生在 1 月 2 日...

1 月 1 日的相同公式应该分别给我 1,1 月 3 日和 1 月 7 日。我正在尝试计算每个日期的 IA、II-A、III-A 的数量 IE 回答问题“II-A 在 1 月 2 日,然后在 1 月 3 日等发生了多少次?” 请注意,这是测试数据。实际数据实际上有更多的日期和更多种类的值来代替单元格的内容。但是,出于示例目的,此示例数据应该足够了。

谢谢!

0 投票
2 回答
2208 浏览

java - 如何使用布尔搜索语法进行 Java 字符串匹配?

我正在寻找一个 Java/Scala 库,它可以接受用户查询和文本并返回是否匹配。

我正在处理信息流,即:Twitter Stream,并且无法使用批处理过程,我需要实时评估每条推文,而不是通过 Lucene RAMDisk 对其进行索引并稍后查询。

可以使用ANTLR创建解析器/词法分析器,但这是一种常见的用法,我不敢相信以前没有人创建过库。

TextQuery Ruby 库中的一些示例完全符合我的需要:

一旦它在 Ruby 中实现,它就不适用于我的平台,我也不能仅在我们的解决方案中使用 JRuby:

我发现了一个类似的问题,但无法从中得到答案: Boolean Query / Expression to a Concrete syntax tree

谢谢!

0 投票
1 回答
74 浏览

keyword - 如何将文本文件与其他文件中的某些关键字匹配

我有一个包含一些数据的文本文件。现在我在其他文本文件文件中有一个关键字列表。

现在我想进行加工,以便我可以找出第二个文本文件中有多少关键字在第一个文件中。

我不是一个大程序员,所以有什么简单的方法可以做到这一点

0 投票
1 回答
147 浏览

algorithm - Matching Differences between two documents

i have a set of strings along with their co-ordinates and rectangular bounds int two similar pages. these strings are different in three possible ways. (i) a string can be moved to a new location on a page. (ii) a string is in the same location but it is modified. say ( abc --> abd or ABC) (iii) a combination of (i) and (ii). (iv) a string might be missing.

i tried to use locality sensitive hashing but couldn't find a good hash function for this. Can anyone please suggest me a good hash function or another algorithm to solve this problem. thanks in advance

0 投票
3 回答
1193 浏览

r - 文本匹配 - 非结构化数据到结构化数据 - 在 SAS 或 R 中

我需要知道如何将非结构化数据映射到结构化数据。

我有一个变量,其中包含客户的地址,其中包括他们的城市。城市名称,例如 DELHI,可以是“DELHI”、“DEHLI”、“DILLI”、“DELI”的形式,我需要从这些地址中检测城市名称并将其映射到正确的名称“DELHI” ”。

我正在尝试在 SAS 或 R 中实施解决方案。

0 投票
1 回答
131 浏览

awk - 在 awk 中将信息更新到我的专栏

我有两个文件 - 每个文件中有两列和多行。我需要更新第二个文件中的信息并将其覆盖在第一个文件中。

例如:

文件 1:文件 2

我需要从第二个文件中添加新值并更新现有值:

最终文件:

我希望我的问题很清楚。重要的是,两个文件的行数不同,并且行不匹配。

我正在尝试这样的事情:

但输出只是匹配列:

任何人都可以帮助修复我的代码以保持所有信息更新!

非常感谢您的帮助!

0 投票
1 回答
2101 浏览

r - 匹配列并将所有重复的元素保留在数据框列中 [R]

我有两个数据框;DF1 有 3 列,DF2 有 1 列。DF1 包含 DF2 中包含的所有元素,但其中大部分重复,如下所示。

我希望在两个数据帧之间进行匹配,这样每当发生匹配时,都应该有一个采用 DF1 形式的结果数据帧。例如,黄疸、甲型肝炎、乙型肝炎、丙型肝炎应该出现 4 次,而不是出现一次柱子。换句话说,应保持如下所示的重复;

那么,我应该如何遍历 DF2 以在 DF1(第一列)中找到匹配项,然后生成与所有其他相应行匹配的数据帧,如上所示?

这是我的脚本,但它似乎没有产生我想要的结果

非常感谢任何帮助和/或建议。我是 R 的新手

0 投票
2 回答
581 浏览

perl - 用于查找两个字符串的重叠区域的 Perl 模块或代码

我有两个字符串。

它们不是彼此的子串,但它们之间存在重叠区域。

我想找到这个重叠区域。

我广泛搜索了 CPAN 和谷歌。

有很多关于“编辑距离”方法的模块,例如Algorithm::DiffText::LevenshteinText::OverlapFinderString::Similarity。但是,它们不是我想要的。

字符串不应间隔(插入或删除任何字符)或替换。它类似于生物信息学中的序列比对,但没有间隙“开放”和“扩展”许可,除非在两个极端情况下。

我想知道是否有人找到了解决方案或解决方法。

0 投票
1 回答
38 浏览

excel - 检查各列中的值是否以某种方式与某一特定列中的值匹配

我有一个庞大的数据库,我想检查范围中的值(不同的单词)是否H:V与 column中的值D匹配,在这种情况下只会匹配一个单词。

这里会是什么样子:

谢谢你。

0 投票
0 回答
2197 浏览

postgresql - Postgresql - 将文本转换为 ts_vector

对不起,基本问题。

我有一个包含以下列的表格。

  • 我正在尝试对“文本”(第 3 列)进行文本匹配
  • 当我尝试在文本列上进行文本匹配时收到错误消息。说字符串对于 ts_vector 来说太长了。

我只想要包含“其他事件”字样的观察结果

我知道 ts_vector 的长度是有限制的。

错误信息

如何将文本列转换为 ts_vector,这会解决我的大小限制问题吗?或者,如何排除超过最大大小的观察?

Postgres 版本 9.3.5.0

这是限制限制的参考

谢谢