1

我有一个以下格式的文本文件。每行都有可变数量的列。

文件:

gi|269201691|ref|YP_003280960.1| chromosomal replication initiation protein                                                            gi|57651109|ref|YP_184912.1| chromosomal replication initiation protein                                                                   %           1        0.0           2296      100.0
gi|269201692|ref|YP_003280961.1| DNA polymerase III subunit beta                                                                       gi|57651110|ref|YP_184913.1| DNA polymerase III subunit beta                                                                              %           1        0.0           1964      100.0

生成的文件应如下所示:

gi|269201691|ref|YP_003280960.1| gi|57651109|ref|YP_184912.1| % 1        0.0           2296      100.0
gi|269201694|ref|YP_003280963.1| gi|57651112|ref|YP_184915.1| % 1        0.0           1767      100.0

下面的代码有助于在每行中查找模式为“ref”的列。

awk '{for (i=1;i<=NF;i++) if ($i ~ /ref/) print $i }'

关于如何做同样的任何想法?

4

3 回答 3

1

我假设您的换行符在您的帖子中被破坏了,并且您的输入文件实际上每行只有一个条目。在这种情况下,我认为这可以满足您的要求:

awk -F '[|%]' '{printf("%s|%d|%s|%s|",$1,$2,$3,$4);if($6)printf(" %%%s",$6);printf("\n")}'

编辑:好的,鉴于新的行号,你想要的可能是这样的:

awk -F '[|%]' '{printf("gi|%d|ref|%s|gi|%d|ref|%s| %%%s\n",$2,$4,$6,$8,$10)}'

对于您的示例,这将为我生成以下输出

gi|269201691|ref|YP_003280960.1|gi|57651109|ref|YP_184912.1| % 1 0.0 2296 100.0
gi|269201692|ref|YP_003280961.1|gi|57651110|ref|YP_184913.1| % 1 0.0 1964 100.0

这可以通过手动将字段分隔符设置为 | 或者 %。因此,描述中的可变单词数不再是问题,我们可以直接索引我们想要的字段。

于 2012-10-29T13:46:05.610 回答
0

This might work for you (GNU sed):

sed 's/\(.*|.*|.*|.*|\)\(.*\)\(\S\+|.*|.*|.*|\)\2%/\1\3%/' file

If the input file has multiline records:

sed 'N;s/\n//;s/\(.*|.*|.*|.*|\)\(.*\)\(\S\+|.*|.*|.*|\)\2%/\1\3%/' file
于 2012-10-29T14:41:58.513 回答
0

这是一种使用方法GNU awk

awk 'BEGIN { OFS=FS="|" } { for (i=1; i<=NF; i++) if ($i ~ / gi$/) $i = " gi"; if (i = NF) sub(/.*%/," %",$i) }1' file.txt

这是一种使用方法GNU sed

sed 's/|[^|]* gi|/| gi|/; s/\(.*|\).*\(%.*\)/\1 \2/' file.txt

结果:

gi|269201691|ref|YP_003280960.1| gi|57651109|ref|YP_184912.1| % 1 0.0 2296 100.0
gi|269201692|ref|YP_003280961.1| gi|57651110|ref|YP_184913.1| % 1 0.0 1964 100.0
于 2012-10-29T22:10:06.557 回答