0

我有大量数据(英国和美国邮政地址)100,000+,其中包含重复或几乎相同的数据行(5 列)在几乎相同的行中,五列中有四列具有完全匹配的数据,例如:- AAAA BBBB CCCCCC CCCCCCCC CCCCCCCC 11.111 22.222 AAAA BBBB CCCCCC CCCCCCCC 11.111 22.222 DDDD EEEE FF FFFFF FFFFF FFFFFFFFF 33.33 44.444 DDDD EEEE FF FFFFF FFFFF 33.33 44.444 GGGG HHHH IIII IIIII IIIIIIII 55.555 66.666 GGGG HHHH IIII IIIII 55.555 66.666 我正在尝试使用 Google Refine 删除这些重复(或接近重复的行)我只是无法管理它我想要结束的是: - AAAA BBBB CCCCCC CCCCCCCC CCCCCCCC 11.111 22.222 DDDD EEEE FF FFFFF FFFFF FFFFFFFFF 33.33 44.444 GGGG HHHH IIII IIIII IIIIIIII 55.555 66.666 例如丢弃具有“更短”数据长度的列

4

1 回答 1

1

您可以通过执行以下步骤来实现这一点 - 1. 在第 1 列排序 2. 在第 2 列排序 3. 在第 4 列排序 4. 在第 5 列排序 5. 永久重新排序行(在顶部打开)现在您会看到 - 所有行永久排序。在第 1 列上做空白。
结果将是 -
======================================== =========================

AAAA BBBB CCCCCC CCCCCCCC CCCCCCCC 11.111 22.222
BBBB CCCCCC CCCCCCCC 11.111 22.222
DDDD EEEE FF FFFFF FFFFF FFFFFFFFF 33.33 44.444
EEEE FF FFFFF FFFFF 33.33 44.444
GGGG HHHH IIII IIIII IIIIIIII 55.555 66.666
HHHH IIII IIIII 55.555 66.666

===================================================================  

现在选择第一列空白的所有行并删除所有行。

于 2014-05-28T20:36:12.713 回答