我们有大量数据,我们想对它们执行一些操作。删除重复项是主要操作之一。
前任。
a,me,123,2631272164
yrw,wq,1237,123712,126128361
yrw,dsfswq,1323237,12xcvcx3712,1sd26128361
这是文件中的三个条目,我们希望根据第一列删除重复项。因此,应删除第 3 行。每行可能有不同数量的列,但我们感兴趣的列将始终存在。
在内存中操作看起来不可行。
另一种选择是将数据存储在数据库中并从那里删除重复项,但这又不是一项简单的任务。我应该遵循什么设计将数据转储到数据库中并删除重复项?
我假设人们一定遇到过这样的问题并解决了它。
我们通常如何解决这个问题?
PS:请将此视为现实生活中的问题,而不是面试问题;)