我有一个算法,我创建了一个巨大的字符串集(字典)。现在我有另一个巨大的字符串流连续到达,需要查找字典中是否存在。到目前为止,我能够实现这个场景。现在我希望如果任何字符串到达两次或多次,我需要将其标记为“现有”而无需再次搜索。我们怎样才能做到这一点?如果不以某种方式存储已经解析的字符串,我想不出任何方法。如果我们存储已经解析的字符串,然后检查每个字符串是否更早出现,那将是一种开销,会扼杀优化的意图。有任何想法吗?
我有一个算法,我创建了一个巨大的字符串集(字典)。现在我有另一个巨大的字符串流连续到达,需要查找字典中是否存在。到目前为止,我能够实现这个场景。现在我希望如果任何字符串到达两次或多次,我需要将其标记为“现有”而无需再次搜索。我们怎样才能做到这一点?如果不以某种方式存储已经解析的字符串,我想不出任何方法。如果我们存储已经解析的字符串,然后检查每个字符串是否更早出现,那将是一种开销,会扼杀优化的意图。有任何想法吗?