regex - 如何有条件地从文本文件中删除 CRLF，最好在记事本 ++ 中

Question

我整天都在寻找这个，这是我找到的最接近的有用参考。

我的问题：巨大的文件是从一个封闭的系统中导入的（不能从源头更改）并且需要导入。这些文件是 | 分隔并在每行末尾有一个 CRLF（直到最后一行）。现在他们发现包含一个新类型很有趣，该类型可以在文本中包含带有 CR 和 CRLF 的文本（instedd of  ）。

所以在我可以在我们的系统中处理这个文件之前，我需要做的是替换所有没有以 | 开头的 CRLF 和 CR 事件。to  ，这样每一行都以 000| 之类的代码开头 ... 600|

我在记事本++中最近的：查找：(?<![\|])[\r\n]+$

代替： 

问题是它不会 为每个 crlf 提供一个，在 cr 之后错过 crlf ...其他选择 |crlf 的尝试也完全忘记了 CR。

任何想法都非常感谢。请记住，文件可能超过 500MB（有点复杂）

文件摘录：

000|709076|153943|11||1|CRLF 
300|709076|153943|11|4|20000729||Majo509|CRLF 
500|709076|153943|11|6|3-3BNME|20000729|||21.13|4||20120509|CRLF 
600|709076|153943|11||SBV|7103||||20120509|CRLF 
600|709076|153943|11||SBV|7105||||20120509|CRLF 
600|709076|153943|11||SBV|7607||||20120509|CRLF 
600|709076|153943|11||MC||EVALUATIEROOSTER NIET INGEVULD :CR
CRLF 
------------------------------CR
CRLF 
CRLF 
Gezien U het evaluatierooster niet heeft ingevuld, blijft CR
CRLF 
CRLF 
|||20120509|CRLF 
600|709076|153943|11||SBV|7517||||20120509|CRLF 
000|709209|154072|9||1|Dne|LA1349|3100||L|20120509|CRLF 
300|709209|154072|9|3|20HEM-AT20120509|CRLF 
500|709209|154072|9|6|3-3BNME|20000908|||15.4|3||20120509|CRLF 
600|709209|154072|9||SBV|7103||||20120509|CRLF 
600|709209|154072|9||MC||AFSCHAFFING VAN DE EVOOR HET CR
CRLF 
(DE) GEBOUW(EN) CR
CRLF 
CR
CRLF 
indien U huurder of gebruiker bent.|||20120509|CRLF 
600|709209|154072|9||MC||DIEFSTAL  CRLF

...

要求的结果：（粗略的复制粘贴工作；））

000|709076|153943|11||1|CRLF 
300|709076|153943|11|4|20000729||Majo509|CRLF 
500|709076|153943|11|6|3-3BNME|20000729|||21.13|4||20120509|CRLF 
600|709076|153943|11||SBV|7103||||20120509|CRLF 
600|709076|153943|11||SBV|7105||||20120509|CRLF 
600|709076|153943|11||SBV|7607||||20120509|CRLF 
600|709076|153943|11||MC||EVALUATIEROOSTER NIET INGEVULD :<BR><BR>---------------------<BR><BR><BR>Gezien U het evaluatierooster niet heeft ingevuld, blijft <BR><BR>||20120509|CRLF 
600|709076|153943|11||SBV|7517||||20120509|CRLF 
000|709209|154072|9||1|Dne|LA1349|3100||L|20120509|CRLF 
300|709209|154072|9|3|20HEM-AT20120509|CRLF 
500|709209|154072|9|6|3-3BNME|20000908|||15.4|3||20120509|CRLF 
600|709209|154072|9||SBV|7103||||20120509|CRLF 
600|709209|154072|9||MC||AFSCHAFFING VAN DE EVOOR HET <BR><BR>(DE) GEBOUW(EN) <BR><BR><BR><BR>indien U huurder of gebruiker bent.|||20120509|CRLF 
600|709209|154072|9||MC||DIEFSTAL  CRLF

score 1 · Accepted Answer

哇，这个让我分阶段了一段时间......
一次完成它很棘手。

N++ 约束可能使它变得比它需要的更难，但是我想没有编写一些代码来做你想做的事，这是一个很好的方法。

虽然我不确定它是否是最佳的，但我在这个组合上取得了成功。
寻找：

([^|])\r([\r\n])*

代替：

$1 

您需要替换中的 $1 ，否则您会从替换的行中丢失一个字符 - 可能不是您想要的！

理想情况下，您应该研究一些 Perl（我不是 perl 的拥护者，可以使用其他处理正则表达式的脚本语言......）或这样做的东西。

编辑：只是一个想法。这假设您的文件中不会有包含 |CRLF 或 |CR 或 |CRCR 的部分不是“真正的”行尾。

score 1 · Accepted Answer

编辑：废弃了我最后的建议 - 没有用

正如 BunjiquoBianco 所建议的那样，我认为这是不可能一次性完成的。

如果你可以使用 awk 会更好。如果您使用的是 Windows，请尝试http://gnuwin32.sourceforge.net/packages/gawk.htm

如果 awk 是一个可行的选项，请重新提出问题，并且 awk 坚果可能会建议从命令提示符使用单线来解析整个文件。

awk is fast too - would give you a much faster transformation and can be included in other scripts more easily thereby cutting out any manual N++ process.

regex - 如何有条件地从文本文件中删除 CRLF，最好在记事本 ++ 中

2 回答 2

Related

Reference