java - 删除文件中的重复数据

Question

我在提出算法时遇到了问题。各位大佬，帮帮我好吗？

我有一个很大的文件，因此无法立即加载。存在重复数据（通用数据，可能是字符串）。我需要删除重复项。

score 2 · Accepted Answer

一个简单但缓慢的解决方案是在 HashSet 中读取 1st Gigabite。读取文件的顺序其余部分并删除文件中的重复字符串。比读取内存（hashset）中的第二个千兆位并一次又一次地删除文件中的重复......它很容易编程，如果你只想做一次就足够了。

score 1 · Accepted Answer

您可以计算每条记录的哈希值并将其保存在 Map>

读入构建地图的文件，如果您发现地图中存在 HashKey，则您寻求定位以进行仔细检查（如果不相等，则将该位置添加到映射集中）

score 0 · Accepted Answer

第二种解决方案：

score 0 · Accepted Answer

取决于输入在文件中的放置方式；是否每一行都可以用行数据表示；

另一种方法是使用数据库服务器，将数据插入具有唯一值列的数据库表中，从文件中读取并插入数据库。最后，数据库将包含所有唯一的行/行。

4 回答 4