0

我有一个 500 000 行的文本文件(不同俱乐部成员的地址),格式为 TAB 格式(使用空格代替 TAB,因此所有列都在 中)。

有些行几乎相同(只有一列不同 - 一个人可以成为 2 个俱乐部的成员)。我不在乎删除哪条重复行,因为家庭地址相同,但我需要删除其中一个。

我可以在 EXCEL 中找到重复项(TEXT-TO-CELL 并删除它们。但随后会丢失带有列的文本模式,因为格式不是 TAB och CSV 格式。

如何在 NOTEPAD++ 或 TEXTPAD 中编写和使用正则表达式?

4

1 回答 1

0

我的解决方案:

  1. 在 EXCEL 中打开文本文件,使用“固定宽度”将其转换为列并添加一些新列。
  2. 使用 EXCEL 在一个文件夹中重复并删除这些行
  3. 将文件导出为“CSV(逗号分隔不同)”(不是“CSV WINDOWS”,因为瑞典字符“åäö”无法保存在此导出中)。
  4. 已下载 ULTRA EDIT 的免费测试版
  5. 使用“CSV to FIXED WIDTH”并为每列指定宽度
  6. 删除了“;” 从每一列

完毕!

于 2013-02-21T18:49:14.770 回答