1

我拥有的是一个包含 PDB 文件的文件夹,其中包含以下模式的信息:

*HEADER 'protein date ID'
TITLE  'title of document here
AUTHOR ' the authors listed here' 
AUTHOR ' continued..'
SOURCE 'source organism (s)'
SOURCE 'continued'
SOURCE 'continued'
COMPND 'compound or complex studied'
COMPND 'continued'

如您所见,此文件中的源代码和其他信息扩展为多行。我想使用 GREP 命令在这些 PDB 文件中创建一个包含此信息的表。我无法将多行组合成一个并生成一个包含 TITLE、AUTHOR、SOURCE 等列的表

我这样做的原因是能够在表格中显示 PDB 文件中的信息,并通过作者或来源的新研究进行过滤,这将在实际网站上节省大量时间。

谢谢你

4

1 回答 1

0

我不认为grep是正确的工具,我建议sedawk. 这是一个sed解决方案(或者可能不是一个完整的解决方案,取决于您想要的输出):

sed ':r;$!{N;br};:s;s/\nSOURCE//2;ts' file.pdb

它只处理线条SOURCE

这是一个更通用的版本:

sed ':r;$!{N;br};:s;s/\(\n[A-Z]\+\)\(.*\)\1/\1\2/;ts' file.pdb
于 2012-09-11T19:55:26.823 回答