0

我有一个包含多个文本文件的文件夹,我需要使用多个替换列表进行处理和格式化,如下所示:

old string1~new string1
old string2~new string2
etc~blah

我从多个文本文件的每一行的替换列表中运行每个替换对。现在我有一组 python 脚本来执行这个操作。我想知道的是,如果我切换到 sed 或 awk,它会使代码更简单、更易于维护吗?它会是一个更好的解决方案还是我应该更好地改进我的 Python 代码?我问是因为传入的文本文件定期出现,并且通常与以前有一些不同的结构,比如错误、拼写错误、多个空格,因为这些文件是由人类创建的。所以我必须不断地调整我的代码和替换列表以使其正常工作。谢谢。

4

2 回答 2

4

除非您的 python 代码真的很糟糕,否则切换到 awk 不太可能使其更易于维护。也就是说,它在 awk 中非常简单,但不能很好地扩展:

cat replacement-list-files* | awk 'FILENAME == "-" { 
  split( $0, a, "~" ); repl[ a[1] ] = a[2]; next }
  { for( i in repl ) gsub( i, repl[i] ) }1' - input-file

请注意,这一次只对一个文件有效。替换为处理多个文件之1类的东西{ print > ( FILENAME ".new" ) },但是如果要处理大量文件,则必须处理关闭文件,并且很快就会变得无法维护。如果您已经有了可行的解决方案,请坚持使用 Python。

于 2013-04-05T11:53:00.797 回答
0

这是正则表达式替换脚本(大部分只是在外观上与@WilliamPursell 发布的不同):

   awk -F'~' '
   NR==FNR{ map[$1] = $2; next }
   {
      for (old in map) {
         gsub(old,map[old]
      }
   }
   ' /wherever/mappingFile file

但这是我认为您真正需要的字符串替换脚本:

   awk -F'~' '
   NR==FNR{ map[$1] = $2; next }
   {
      for (old in map) {
         rlength = length(old)
         while (rstart = index($0,old)) {
            $0 = substr($0,1,rstart-1) map[old] substr($0,rstart+rlength)
         }
      }
   }
   ' /wherever/mappingFile file

在任何一种情况下,只需将其包含在 shell 循环中即可影响多个文件:

for file in *
do
   awk -F'~' '...' /wherever/mappingFile "$file" > tmp && mv tmp "$file"
done
于 2013-04-05T13:11:49.803 回答