我有一个包含近 100000 个条目的文本文件。他们都处于某种模式,比如
word1 word2 word3 word4
但是,其中许多条目是重复的,其中所有单词都相同。当我尝试读取并形成唯一数组或列表时,我正在使用中间哈希集来执行此操作。它工作得很好。
但基本上我想要实现的只是 word2 的唯一条目。就像 word2 很常见而所有其他都不同一样,我想保留任何一个条目。
例如
cat dog lion tiger
cat dog deer bear
mouse rat bear deer
lion tiger cat dog
cat dog deer bear
在这种情况下,所需的输出将是:
cat dog lion tiger
mouse rat bear deer
lion tiger cat dog
或者
cat dog deer bear
mouse rat bear deer
lion tiger cat dog
目前哈希集给出的是:
cat dog lion tiger
cat dog deer bear
mouse rat bear deer
lion tiger cat dog
鉴于数据集很大,有关如何有效实现这一点的任何建议。在这里使用正则表达式是唯一的选择吗?我正在使用 C#。