0

我最近一直在处理大型文本文件。我已将它们转换为 CSV 格式,使用|as quotechar,但我发现有时文本文件中会重复整个句子 - 不一定是一个接一个。句子可以有不同的长度。我的目标是从 CSV 文件中删除重复的句子。为了澄清,它看起来像:

|something irrelevant|,|sentence1|  
|something irrelevant|,|sentence2|  
|something irrelevant|,|sentence3|  
|something irrelevant|,|sentence4|  
...  
|something irrelevant|,|sentence100,000|

其中一些第二列是重复的。我对正则表达式有一些经验,但我还没有看到可以用于此的东西。正则表达式是解决这个问题的正确方法,还是有更好的选择?任何建议将不胜感激。

4

1 回答 1

0

好的。我从我的文本文件中删除了重复的句子,如下所示:

  1. 转换为 CSV 格式
  2. 导入到 Excel
  3. 使用现在包含句子的列的 Excel 中的“删除重复项”功能
  4. 导出为 CSV 文件
  5. 转换回文本

这可能不是最有效的做事方式,但它很有效,而且很容易遵循。之前我浪费了很多时间编写复杂的正则表达式并在 python 中搞乱,所以希望这可以节省一些时间。

于 2013-07-13T12:29:24.447 回答