我想在大约 10 KB 的序列中找到新的和已知的 RNA 和转录本。如果该序列在 ensembl 和 UCSC 浏览器中没有得到很好的注释,那么使用生物信息学工具最简单的方法是什么?剪接 EST 和 RNA 测序数据是一种选择吗?我是生物信息学的新手,您的建议对我很有用。
提前致谢
我想在大约 10 KB 的序列中找到新的和已知的 RNA 和转录本。如果该序列在 ensembl 和 UCSC 浏览器中没有得到很好的注释,那么使用生物信息学工具最简单的方法是什么?剪接 EST 和 RNA 测序数据是一种选择吗?我是生物信息学的新手,您的建议对我很有用。
提前致谢
我有点不清楚您想要的最终产品或输出到底是什么样子。但我可能会建议做多个序列比对并寻找那些得分高的。如果这个 10KB 的序列有一些已知的序列,但它们不会完全匹配,那么我认为您需要一个程序,它可以为您提供比对分数,而不仅仅是简单的匹配。我将 Perl 与Clustal结合使用进行对齐。基本上,您需要根据这些文件格式的各自约定制作具有 10KB 序列和已知感兴趣序列的 .fasta 或 .aln 文件。如果您不太精通编程,可以使用 clustal 的 GUI 版本。如果你想使用 Perl,这是我编写的用于对齐整个 .fasta 文件目录的脚本。它可以一口气执行许多对齐。注意:您必须编辑最后一行(系统调用)中的 clustal 可执行路径以匹配其在您的计算机上的位置,以便此脚本运行。
#!/usr/bin/perl
use warnings;
print "Please type the list file name of protein fasta files to align (end the directory path with a / or this will fail!): ";
$directory = <STDIN>;
chomp $directory;
opendir (DIR,$directory) or die $!;
my @file = readdir DIR;
closedir DIR;
my $add="_align.fasta";
foreach $file (@file) {
my $infile = "$directory$file";
(my $fileprefix = $infile) =~ s/\.[^.]+$//;
my $outfile="$fileprefix$add";
system "/Users/Wes/Desktop/eggNOG_files/clustalw-2.1-macosx/clustalw2 -INFILE=$infile -OUTFILE=$outfile -OUTPUT=FASTA";
}
您是否有 linux 服务器或计算机,或者您是否依赖基于 web 和 windows 的程序?
为了对齐 RNA-seq 读取,人们通常使用像 Tophat 这样的剪接读取对齐器,尽管 BLAST 可能也可以。
最初我写了很长的回复来解释如何在 Linux 中做到这一点,但我刚刚意识到 Galaxy 对于初学者来说可能是一个更容易的解决方案。Galaxy 是一个具有非常用户友好界面的在线生物信息学工具;它专为初学者设计。您可以在此网站注册并登录:https ://main.g2.bx.psu.edu/
有关于如何做事的教程(请参阅“帮助”菜单),但我为您的实验的基本工作流程将是这样的:
关于查看输出,我不确定 Windows 上的自定义参考序列有什么可用的,您可能需要做一些研究。对于 Linux/Mac,我推荐 IGV。