4

我想删除包含它的任何字段中第四次出现字符“:”之后的内容。请参阅示例:

输入:

1 10975     A C    1/1:137,105:245:99:1007,102,0   0/1:219,27:248:20:222,0,20 
1 19938     T TA   ./.                             1/1:0,167:167:99:4432,422,0,12,12
12 20043112 C G    1/2:3,5,0:15:92                 2/2:3,15:20:8

预期输出:

1 10975     A C    1/1:137,105:245:99   0/1:219,27:248:20 
1 19938     T TA   ./.                  1/1:0,167:167:99
12 20043112 C G    1/2:3,5,0:15:92      2/2:3,15:20:8

所以基本上任何具有“:”的字段都应该被删除。请注意,第三行没有任何变化,因为“:”只出现了三次。我已经尝试并找到了一个解决方案(不好),它不仅适用于第一行,也不适用于第二行,因为它有更多的逗号“,”

不完整的解决方案:

sed 's/:[0-9]*,[0-9]*,[0-9]*//g'

提前致谢

4

4 回答 4

5

赛德:

sed -r 's/((:[^: \t]*){3}):[^ \t]*/\1/g' file | column -t

珀尔:

perl -pe 's/((:\S*){3}):\S*/$1/g' file | column -t
于 2013-11-10T09:18:34.947 回答
3

使用sed

sed -r 's/((:[^ ]*){3}):[^ ]*/\1/g' file

输出:

1 10975     A C    1/1:137,105:245:99   0/1:219,27:248:20 
1 19938     T TA   ./.                             1/1:0,167:167:99
12 20043112 C G    1/2:3,5,0:15:92                 2/2:3,15:20:8

使用perl

perl -pe 's/((:\S*){3}):\S*/$1/g' file
于 2013-11-10T09:05:16.867 回答
2

在字段 5 到最后一个字段上,这将删除第四次出现的正则表达式:[^:]+

< file.txt awk '{ for (i=5; i<=NF; i++) $i = gensub(/:[^:]+/, "", 4, $i) }1' | column -t

在字段 5 到最后一个字段上,这将删除第四个字段之后的所有内容:

< file awk '{ for (i=5; i<=NF; i++) $i = gensub(/((:[^:]+){3}).*/, "\\1", 1, $i) }1' | column -t

解释:

重新阅读您的问题后,第二个解决方案可能就是您正在寻找的。第一个解决方案查找冒号后跟一个或多个字符而不是冒号并将它们删除。第三个参数gensub()描述要替换的正则表达式的哪个匹配项。所以 4 告诉gensub()删除模式的第四个匹配项。第二个解决方案,查找第一个答案中描述的三组正则表达式。在这一点上,值得一提的是,它提供了一个使用orgensub()不可用的附加功能。这是在替换文本中指定正则表达式组件的能力,就像其他语言如何使用括号来执行捕获一样。是一个非常强大的命令,只有使用 GNU awk 才能使用。提供的描述和示例sub()gsub()gensub()这里非常有用。HTH。

结果:

1   10975     A  C   1/1:137,105:245:99  0/1:219,27:248:20
1   19938     T  TA  ./.                 1/1:0,167:167:99
12  20043112  C  G   1/2:3,5,0:15:92     2/2:3,15:20:8
于 2013-11-10T08:43:30.497 回答
0
perl -lane 's/(.*?:.*?:.*?:.*?):.*/$1/g  for @F ; printf "@F"."\n"' your_file
于 2013-11-11T06:17:43.823 回答