我最近一直在处理大型文本文件。我已将它们转换为 CSV 格式,使用|
as quotechar,但我发现有时文本文件中会重复整个句子 - 不一定是一个接一个。句子可以有不同的长度。我的目标是从 CSV 文件中删除重复的句子。为了澄清,它看起来像:
|something irrelevant|,|sentence1|
|something irrelevant|,|sentence2|
|something irrelevant|,|sentence3|
|something irrelevant|,|sentence4|
...
|something irrelevant|,|sentence100,000|
其中一些第二列是重复的。我对正则表达式有一些经验,但我还没有看到可以用于此的东西。正则表达式是解决这个问题的正确方法,还是有更好的选择?任何建议将不胜感激。