我从http://ncbi.nlm.nih.gov/genomes/FLU/Database/nph-select.cgi#mainform下载蛋白质序列,文件名为 FASTA.FA。对于文件中的每个蛋白质,它包括一个描述行,然后在每 70 个字符后用新行分隔蛋白质序列。
例子:
>CAA47401 B/Yamagata/16/88 1988// NA MLPSTIQTLTLFLTSGGVLLSLYVSASLSYLLYSDILLKFSPTEITAPKVPLDCANASNVQAVNRSATKG MTLLLSEPEWTYPRLSCQGSTFQKALLISPHRFGESRGNSAPLIIREPFIACGPKECKHFALTHYAAQPG >AAB26739 Influenza B virus 1973// NA MLPSTIQTLTLFLTSGGVLLSLYVSASLSYLLYSDILLKFSPTKITAPTMSLDCANVSNVQAVNRSATKE DVPCIGIEMVHDGGKETWHSAATAIYCLMGSGQLLWDIVTGVAMAL
我有一个 ruby 脚本,可以将其转换为更适合 Excel 的文件,其中第一行获取一个单元格,整个蛋白质序列获取另一个单元格(perl 在两者之间创建一个制表符,Excel 将用制表符分隔的内容放在一个新单元格中) .
这是我的脚本:
ruby -e 'first_line = true; while line = STDIN.gets; line.chomp!;
if line =~ /^>/; puts unless first_line; print line[1..-1]; print "\t";
else; print line; end; first_line = false; end; puts' < ~/Downloads/FASTA.fa > ~/Downloads/Sequences.xls
在我下载文件的网站上,您可以更改第一行的格式,我在每个描述之间添加一个“+”,然后我有一个将 + 转换为制表符的 perl 脚本(一些描述中有一个空格) ,所以我不能使用空格作为分隔符)。
perl -p -i -e "s/\+/\t/g" ~/Downloads/Sequences.xls
这两个 hack 成功地为我创建了一个不错的 excel 文件,并且我从我的 Dock 中的这两个脚本制作了一个 Automator 程序。
但是,现在我的小组希望我从中创建一个 AppleScript。如果我理解正确的话,它并不像只输入“do shell script”然后粘贴脚本那么简单,但您必须格式化实际脚本本身,以便applescript 理解它。有人可以帮我创建这个吗?
谢谢!