例如,您有一个应用程序处理由不同客户端发送的文件。客户端每天发送大量文件,您将这些文件的内容加载到您的系统中。这些文件具有相同的格式。给你的唯一限制是你不能运行同一个文件两次。
为了检查您是否运行了特定文件,请创建文件的校验和并将其存储在另一个文件中。因此,当您获得一个新文件时,您可以创建该文件的校验和,并与您运行和存储的其他文件的校验和进行比较。
现在,包含您迄今为止运行的所有文件的所有校验和的文件变得非常非常大。搜索和比较花费了太多时间。
注意:该应用程序使用平面文件作为其数据库。请不要建议使用 rdbms 之类的。目前根本不可能。
您认为还有其他方法可以检查重复文件吗?