sql - 比较具有大量数据的两组以找到相同的值

Question

好的，问题看起来像这样。我有一组n空列的数据库行position。我需要使用该组（来自 3 个单独的列）中的地址数据（不同的组合等 - 没关系）将它们与另一组m元素（也来自数据库，其中包含地址数据和所需的位置）进行比较。

因为这些集合非常大（大约百万条记录，并且该操作经常执行），所以我需要一些非常快速的算法来比较这两个集合并找到我需要的数据。

我试图找到一些东西，但我不知道它是否是任何众所周知的数学问题（也许在图论中？）。

[编辑]

这些结构太大，无法在此处描述。但我会为此做一个例子。

设置 1。

|[ID] | [CITY] | [STREET] | [POSTCODE] | [LOCATION] |
|-----|--------|----------|------------|------------|
| 1   | City1  | Street1  | 00000      | NULL       |
| 2   | City2  | Street2  | 11111      | NULL       |
| 3   | City3  | Street3  | 22222      | NULL       |

设置 2。

|[ID] | [SOME_KIND_OF_ADDRESS]              | [LOCATION] |
|-----|-------------------------------------|------------|
| 1   | Street 1 in City 1, 00000 blah blah | SOME_XY1   |
| 2   | Street 2 in City 1, 00001 blah blah | SOME_XY2   |
| 3   | Street 2 in City 2, 11111 blah blah | SOME_XY3   |
| 4   | Street 1 in City 4, 33333 blah blah | SOME_XY4   |

现在对于中的每个元素Set 1，我想尝试在Set 2. 仅在这种情况下City2, Street2将City1, Street1被匹配。所以结果将如下所示：

|[ID] | [CITY] | [STREET] | [POSTCODE] | [LOCATION] |
|-----|--------|----------|------------|------------|
| 1   | City1  | Street1  | 00000      | SOME_XY1   |
| 2   | City2  | Street2  | 11111      | SOME_XY3   |

score 2 · Accepted Answer

执行此操作的正确方法是解析集合 2 中的地址，然后在每个字段上创建索引。那么你的比较会非常快。

没有这个，你有什么选择？好吧，您基本上必须扫描第 2 组中的所有地址以进行比较。一些 SQL 引擎优化了字符串开头的比较（使用索引），因此一个比较可以使用索引。如果您有提取街道/城市/邮政编码的功能，那么某些数据库可以支持“功能”索引，其中元素是函数调用的结果。

另一种选择是全文搜索。这将允许您使用称为倒排索引的结构搜索组件。

但是，我的建议是修复地址并提取您想要比较的部分。地址整改/标准化，虽然既不便宜也不快，但通常通过大大简化诸如此类的请求在中期内收回成本。

score 0 · Accepted Answer

我会使用以下算法：

排序表 A，B
在表的开头创建 2 个指针 (ptrA, ptrB)
While (ptrA 未结束且 ptrB 未结束)

{

if (ptrA->value=ptrB->value) update column position
if (ptrA->value>ptrB->value) move prtB forward
else move ptrA forward

}

sql - 比较具有大量数据的两组以找到相同的值

2 回答 2

Related

Reference