0

我有一堆旧的、继承的 mbox 文件,我想将它们转换为 maildir。问题:mbox 不完全符合 RFC。在某些(但不是全部)邮件中,有几个邮箱在“^From”行之前缺少空行,这导致 mb2md 无法将这些邮件彼此分开。

例子:

...
Text of mail 1
... bla....    
To unsubscribe, visit https:...                      
From fetchmail Fri Nov  8 18:35:54 CET 2002          ## ^missing empty line above
...
Text of mail 2
...

现在我正在寻找一种简单的方法来在任何匹配“^From”的行之前插入一个空行——但前提是前面没有空行。一种流编辑是必须的,因为邮箱可能真的很大。

我经常使用 sed - 但我不熟悉多行匹配。今天尝试了几件事(修改后的剪切),但没有成功:(

最后一次尝试是 sed -E ':a;N;$!ba;s/\n(..*)\nFrom /\n\1\n\nFrom /g' /tmp/testfile

只匹配模式的最后一次出现!?

sed/awk-experts - 你对我有什么提示吗?

4

2 回答 2

1

任何时候您使用sed除 s、g 和 p(带 -n)之外的结构时,您都在使用错误的工具。formail如果由于某种原因您不能使用,那么只需使用awk

$ awk '/^From/ && p{print ""} {p=NF; print}' file
...
Text of mail 1
... bla....
To unsubscribe, visit https:...

From fetchmail Fri Nov  8 18:35:54 CET 2002          ## ^missing empty line above
...
Text of mail 2
...

这将在任何 UNIX 机器上使用任何 awk 工作,并且一次只读取 1 行,因此无论您的输入文件有多大,它都可以工作。

于 2020-09-10T17:43:28.497 回答
0

只匹配模式的最后一次出现!?

是的。正则表达式是贪婪的。.*匹配所有内容,然后在匹配所有内容之后,匹配最后一个单曲\nFrom。匹配除换行符以外的所有内容以匹配一行。

sed -z -E 's/(\n[^\n]+\n)(From )/\1\n\2/g'

如果您不想将整个文件读入内存,则必须至少读取内存中的两行。下面我将前一行放入保存空间 - 在读取的每一行上附加当前行和前一行以检查条件。检查后,打印上一行。

sed -n -E '
      # Hold first line.
      1{h;b}
      # Append the line to hold space and switch hold space with pattern space
      # so that we have previous\ncurrent lines in pattern space.
      H;x
      # If we have From prepended by anything in previous line, add a newline
      /.+\nFrom /s/\n/\n\n/
      # Remove current line
      s/\n[^\n]*$//
      # Print previous line. Maybe with extra newline.
      p
      # If its last line, also print the holded last line
      ${x;p}
'

和oneliner:

sed -nE '1{h;b};H;x;/.+\nFrom /s/\n/\n\n/;s/\n[^\n]*$//p;${x;p}'
于 2020-09-10T17:24:11.323 回答