linux - 使用 UNIX 或 perl 从文本文件的每一行中提取某些文本

Question

我有一个带有如下行的文本文件：

Sequences (1:4) Aligned. Score:  4
Sequences (100:3011) Aligned. Score: 77
Sequences (12:345) Aligned. Score: 100
...

我希望能够将值提取到一个新的制表符分隔的文本文件中：

1 4 4
100 3011 77
12 345 100

（像这样，但使用制表符而不是空格）

任何人都可以提出任何建议吗？也许是 sed 或 cut 的某种组合？

score 3 · Accepted Answer

您可以使用 Perl：

cat data.txt | perl -pe 's/.*?(\d+):(\d+).*?(\d+)/$1\t$2\t$3/'

或者，保存到文件：

cat data.txt | perl -pe 's/.*?(\d+):(\d+).*?(\d+)/$1\t$2\t$3/' > data2.txt

小解释：

这里的正则表达式是这样的：

s/RULES_HOW_TO_MATCH/HOW_TO_REPLACE/

如何匹配 = .*?(\d+):(\d+).*?(\d+)

如何替换 = $1\t$2\t$3

在我们的例子中，我们使用以下标记来声明我们希望如何匹配字符串：

此外，如果正则表达式中的某些标记在括号中，则表示“保存它以便我以后可以引用它”。第一个括号将被称为“$1”，第二个被称为“$2”等。在我们的例子中：

.*?(\d+):(\d+).*?(\d+)
     $1    $2      $3

最后，我们将 $1、$2、$3 打印出来，并用制表符 (\t) 分隔：

$1\t$2\t$3

score 2 · Accepted Answer

你可以使用 sed：

sed 's/[^0-9]*\([0-9]*\)/\1\t/g' infile

这是一个 BSD sed 兼容版本：

sed 's/[^0-9]*\([0-9]*\)/\1'$'\t''/g' infile

上述解决方案在输出中留下一个尾随标签，附加s/\t$//或s/'$'\t''$//分别删除它。

如果您知道每行总是有 3 个数字，则可以使用 grep：

<infile grep -o '[0-9]\+' | paste - - -

所有情况下的输出：

1       4       4       
100     3011    77      
12      345     100

score 1 · Accepted Answer

我的解决方案使用sed：

sed 's/\([0-9]*\)[^0-9]*\([0-9]*\)[^0-9]*\([0-9]\)*/\1     \2      \3/g' file.txt

3 回答 3