我有多个 fasta 文件,每个文件中包含 1000 个不同长度的 seq。我想只保留每个序列的前 200 (n) 个碱基。我怎样才能在 Perl 中做到这一点?
问问题
1755 次
5 回答
2
如果序列打印在多个物理行上,则只打印到第 200 个字符。以楔形开头的行是标题行,表示新序列的开始。
awk '/^>/{ seqlen=0; print; next; }
seqlen < 200 { if (seqlen + length($0) > 200)
$0 = substr($0, 1, 200-seqlen);
seqlen += length($0); print }' file.fasta >newfile.fasta
哦,在 Perl 中?
perl -nle 'if (/^>/) { $seqlen = 0; print; next }
next if ($seqlen >= 200);
$_ = substr($_, 0, 200-$seqlen) if ($seqlen + length($_) > 200);
$seqlen += length($_);
print;' file.fasta >newfile.fasta
于 2013-05-02T10:23:04.873 回答
1
如果序列太长,只保留有趣的部分:
$/ = '>';
<>;
while (my $seq = <>) {
$seq =~ s/>$//;
$seq =~ s/^(.*)//;
my $id = $1;
$seq =~ s/\n//g;
$seq = substr $seq, 0, 200;
print ">$id\n$seq\n";
}
于 2013-05-02T10:09:57.047 回答
1
我建议您考虑将 BioPerl 用于此类事情,因为完成这些任务非常容易,而且您不必担心诸如格式化之类的事情。在下面的代码中,脚本的第一个参数是您的 fasta,第二个参数是一个文件,仅保存每个序列的前 200 个碱基。
#!/usr/bin/env perl
use strict;
use warnings;
use Bio::Seq;
use Bio::SeqIO;
my $usage = "$0 infile outfile\n";
my $infile = shift or die $usage;
my $outfile = shift or die $usage;
my $seqin = Bio::SeqIO->new(-file => $infile, -format => 'fasta');
my $seqout = Bio::SeqIO->new(-file => ">$outfile", -format => 'fasta');
while (my $seq = $seqin->next_seq) {
my $first200 = $seq->subseq(1,200); # 1-based
my $subseq = Bio::Seq->new(-seq => $first200, -id => $seq->id);
$seqout->write_seq($subseq);
}
于 2013-05-02T19:02:23.140 回答
0
很难在没有看到示例的情况下准确理解您的意思,但如果您只需要每行的前 200 个字符,请使用cut
:
cut -c1-200 file
于 2013-05-02T10:30:35.073 回答
0
这是我解决它的方法,如果有人有兴趣尝试另一种方法,我使用 biolinux 中包含的一个名为Fasta_formatter的工具将实际序列放在一行中(-w 0),然后按照@sudo_O 所说的进行修剪,然后最后回到 80 个字母的宽度。
fasta_formatter -w 0 < FILE | cut -c1-LENGTH | fasta_formatter -w 80 > TRIMMED_FILE
于 2014-05-22T03:42:40.290 回答