regex - 使用正则表达式从 fasta 文件中获取特定序列

Question

我想从输入fasta文件中检索第n^个序列（或者最好是第n^个到第m^个序列），最好使用unix“单线”。

我知道我可以用 perl（或任何其他脚本语言）读取序列，计数，然后打印序列，但我正在寻找更快、更紧凑的东西。

对于那些不知道的人，示例 fasta 文件如下所示：

>SEQUENCE_1
MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG
LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK
IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL
MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL
>SEQUENCE_2
SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI
ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH

score 2 · Accepted Answer

这里有两种使用方式awk。

如果您的序列每行包装 1 个，这将起作用：

awk -v n=5 -v m=8 'NR == n * 2 - 1, NR == m * 2' file.fa

如果您的序列行没有换行，那么这可能更合适：

awk -v n=5 -v m=8 '/^>/ { c++ } c == n { f=1 } c == m + 1 { f=0 } f' file.fa

score 2 · Accepted Answer

一种方法awk：

awk -v RS='>' -v start=$n -v end=$m 'NR>=(start+1)&&NR<=(end+1){print ">"$0}' fasta_file

score 2 · Accepted Answer

sed一个衬垫（不需要管道|）：

sed '/>SEQUENCE_'$n'/, />SEQUENCE_'$(($m + 1))'/!d;{/>SEQUENCE_'$(($m + 1))'/d}' file

score 2 · Accepted Answer

2

与sed：

sed -n '/SEQUENCE_'$n'/,/SEQUENCE_'$(($m + 1))'/p' input | sed '$d'

于 2013-06-20T23:46:02.310 回答

regex - 使用正则表达式从 fasta 文件中获取特定序列

4 回答 4

Related

Reference