“textmatching”的相关标签问题

0 投票

1 回答

3862 浏览

excel - 如何在半复杂的 countifs() 公式中获得完全匹配

首先，我目前使用的公式：

=countifs('page1'!AF:AF,$L6,'page1'!AA:AA,"="&RIGHT(M$2,3))+countifs('page1'!AF:AF,$L6,'page1'!AB:AB,"="&RIGHT(M$2,3))+countifs('page1'!AF:AF,$L6,'page1'!AC:AC,"="&RIGHT(M$2,3))+countifs('page1'!AF:AF,$L6,'page1'!AD:AD,"="&RIGHT(M$2,3))+countifs('page1'!AF:AF,$L6,'page1'!AE:AE,"="&RIGHT(M$2,3))+countifs('page1'!AF:AF,$L6,'page1'!AF:AF,"="&RIGHT(M$2,3))

好吧，现在，我试图匹配的是：

问题是，如果在我正在寻找的范围内存在与上述术语松散匹配的模式，那么 countifs() 会在不完全评估整个字符串的情况下返回 true。换句话说，我专门在所述公式中寻找字符串“II-A”，但 countifs() 正在返回所有字符串的计数，这些字符串不仅是“II-A”而且也是“IA”。淘气的countifs()！

是否有捷径可寻。我真的不想重新思考/重写这些公式。我找到了一个名为exact() 的方法，但将其滚动起来似乎很痛苦。任何帮助将非常感激。

编辑编辑编辑

这是一个测试表...

=COUNTIFS($CC:$CC,"="&$C2,$AA:$AA,"="&$A1)+COUNTIFS($CC:$CC,"="&$C2,$BB:$BB,"="&$A1)

这个模拟测试公式的结果为 0，但我正在寻找的是 1，因为一个 IA 发生在 1 月 2 日...

1 月 1 日的相同公式应该分别给我 1，1 月 3 日和 1 月 7 日。我正在尝试计算每个日期的 IA、II-A、III-A 的数量 IE 回答问题“II-A 在 1 月 2 日，然后在 1 月 3 日等发生了多少次？” 请注意，这是测试数据。实际数据实际上有更多的日期和更多种类的值来代替单元格的内容。但是，出于示例目的，此示例数据应该足够了。

谢谢！

2011-07-22T09:12:09.800

0 投票

2 回答

2208 浏览

java - 如何使用布尔搜索语法进行 Java 字符串匹配？

我正在寻找一个 Java/Scala 库，它可以接受用户查询和文本并返回是否匹配。

我正在处理信息流，即：Twitter Stream，并且无法使用批处理过程，我需要实时评估每条推文，而不是通过 Lucene RAMDisk 对其进行索引并稍后查询。

可以使用ANTLR创建解析器/词法分析器，但这是一种常见的用法，我不敢相信以前没有人创建过库。

TextQuery Ruby 库中的一些示例完全符合我的需要：

一旦它在 Ruby 中实现，它就不适用于我的平台，我也不能仅在我们的解决方案中使用 JRuby：

我发现了一个类似的问题，但无法从中得到答案： Boolean Query / Expression to a Concrete syntax tree

谢谢！

java scala textmatching booleanquery

2012-04-07T15:54:11.213

0 投票

1 回答

74 浏览

keyword - 如何将文本文件与其他文件中的某些关键字匹配

我有一个包含一些数据的文本文件。现在我在其他文本文件文件中有一个关键字列表。

现在我想进行加工，以便我可以找出第二个文本文件中有多少关键字在第一个文件中。

我不是一个大程序员，所以有什么简单的方法可以做到这一点

keyword textmatching

2012-06-02T09:50:58.500

0 投票

1 回答

147 浏览

algorithm - Matching Differences between two documents

i have a set of strings along with their co-ordinates and rectangular bounds int two similar pages. these strings are different in three possible ways. (i) a string can be moved to a new location on a page. (ii) a string is in the same location but it is modified. say ( abc --> abd or ABC) (iii) a combination of (i) and (ii). (iv) a string might be missing.

i tried to use locality sensitive hashing but couldn't find a good hash function for this. Can anyone please suggest me a good hash function or another algorithm to solve this problem. thanks in advance

algorithm matching string-matching locality-sensitive-hash textmatching

2013-12-09T06:13:15.703

0 投票

3 回答

1193 浏览

r - 文本匹配 - 非结构化数据到结构化数据 - 在 SAS 或 R 中

我需要知道如何将非结构化数据映射到结构化数据。

我有一个变量，其中包含客户的地址，其中包括他们的城市。城市名称，例如 DELHI，可以是“DELHI”、“DEHLI”、“DILLI”、“DELI”的形式，我需要从这些地址中检测城市名称并将其映射到正确的名称“DELHI” ”。

我正在尝试在 SAS 或 R 中实施解决方案。

r mapping sas extract textmatching

2013-12-19T05:35:57.147

0 投票

1 回答

131 浏览

awk - 在 awk 中将信息更新到我的专栏

我有两个文件 - 每个文件中有两列和多行。我需要更新第二个文件中的信息并将其覆盖在第一个文件中。

例如：

文件 1：文件 2

我需要从第二个文件中添加新值并更新现有值：

最终文件：

我希望我的问题很清楚。重要的是，两个文件的行数不同，并且行不匹配。

我正在尝试这样的事情：

但输出只是匹配列：

任何人都可以帮助修复我的代码以保持所有信息更新！

非常感谢您的帮助！

awk updating textmatching

2014-01-22T12:44:19.110

0 投票

1 回答

2101 浏览

r - 匹配列并将所有重复的元素保留在数据框列中 [R]

我有两个数据框；DF1 有 3 列，DF2 有 1 列。DF1 包含 DF2 中包含的所有元素，但其中大部分重复，如下所示。

我希望在两个数据帧之间进行匹配，这样每当发生匹配时，都应该有一个采用 DF1 形式的结果数据帧。例如，黄疸、甲型肝炎、乙型肝炎、丙型肝炎应该出现 4 次，而不是出现一次柱子。换句话说，应保持如下所示的重复；

那么，我应该如何遍历 DF2 以在 DF1（第一列）中找到匹配项，然后生成与所有其他相应行匹配的数据帧，如上所示？

这是我的脚本，但它似乎没有产生我想要的结果

非常感谢任何帮助和/或建议。我是 R 的新手

r duplicates string-matching textmatching

2014-06-04T05:22:04.040

0 投票

2 回答

581 浏览

perl - 用于查找两个字符串的重叠区域的 Perl 模块或代码

我有两个字符串。

它们不是彼此的子串，但它们之间存在重叠区域。

我想找到这个重叠区域。

我广泛搜索了 CPAN 和谷歌。

有很多关于“编辑距离”方法的模块，例如Algorithm::Diff，Text::Levenshtein或Text::OverlapFinder和String::Similarity。但是，它们不是我想要的。

字符串不应间隔（插入或删除任何字符）或替换。它类似于生物信息学中的序列比对，但没有间隙“开放”和“扩展”许可，除非在两个极端情况下。

我想知道是否有人找到了解决方案或解决方法。

perl textmatching

2014-06-06T14:00:59.183

0 投票

1 回答

38 浏览

excel - 检查各列中的值是否以某种方式与某一特定列中的值匹配

我有一个庞大的数据库，我想检查范围中的值（不同的单词）是否H:V与 column中的值D匹配，在这种情况下只会匹配一个单词。

这里会是什么样子：

谢谢你。

excel textmatching

2014-09-02T18:53:46.903

0 投票

0 回答

2197 浏览

postgresql - Postgresql - 将文本转换为 ts_vector

对不起，基本问题。

我有一个包含以下列的表格。

我正在尝试对“文本”（第 3 列）进行文本匹配
当我尝试在文本列上进行文本匹配时收到错误消息。说字符串对于 ts_vector 来说太长了。

我只想要包含“其他事件”字样的观察结果

我知道 ts_vector 的长度是有限制的。

错误信息

如何将文本列转换为 ts_vector，这会解决我的大小限制问题吗？或者，如何排除超过最大大小的观察？

Postgres 版本 9.3.5.0

这是限制限制的参考

谢谢

postgresql textmatching

2014-09-08T01:58:26.507

问题标签 [textmatching]

编辑 编辑 编辑

Reference

编辑编辑编辑