1

我在 Java 中寻找一些重复的匹配算法。我有 senario 即

我有两个表。表 1 在一个列中包含 25,000 个记录字符串,同样,表 2 包含 20,000 个记录字符串。我想检查表 1 和表 2 中的重复记录。记录类似于这种格式,例如:

表格1

约翰·沃尔特拉

布鲁斯·威利斯

表 2

伏打

布鲁斯·威利斯

寻找可以从两个不同文件中的这两个表中找到这种类型的重复字符串匹配的算法。有人能帮我介绍两个或更多可以在 Java 中执行此类查询的算法吗?

4

2 回答 2

5

将这两个文件读规范化形式,以便进行比较。使用这些条目的集合retainAll()并找到这两个集合的交集。这些是重复的。

于 2012-11-26T15:03:19.480 回答
0

您可以使用Map<String, Integer>(例如HashMap)并逐行读取文件并将字符串插入映射中,每次找到现有条目时都会增加值。

然后,您可以搜索您的地图并找到计数 > 1 的所有条目。

于 2012-11-26T15:06:09.520 回答