我在提出算法时遇到了问题。各位大佬,帮帮我好吗?
我有一个很大的文件,因此无法立即加载。存在重复数据(通用数据,可能是字符串)。我需要删除重复项。
我在提出算法时遇到了问题。各位大佬,帮帮我好吗?
我有一个很大的文件,因此无法立即加载。存在重复数据(通用数据,可能是字符串)。我需要删除重复项。
一个简单但缓慢的解决方案是在 HashSet 中读取 1st Gigabite。读取文件的顺序其余部分并删除文件中的重复字符串。比读取内存(hashset)中的第二个千兆位并一次又一次地删除文件中的重复......它很容易编程,如果你只想做一次就足够了。
您可以计算每条记录的哈希值并将其保存在 Map>
读入构建地图的文件,如果您发现地图中存在 HashKey,则您寻求定位以进行仔细检查(如果不相等,则将该位置添加到映射集中)
第二种解决方案:
取决于输入在文件中的放置方式;是否每一行都可以用行数据表示;
另一种方法是使用数据库服务器,将数据插入具有唯一值列的数据库表中,从文件中读取并插入数据库。最后,数据库将包含所有唯一的行/行。