0

我想在大约 10 KB 的序列中找到新的和已知的 RNA 和转录本。如果该序列在 ensembl 和 UCSC 浏览器中没有得到很好的注释,那么使用生物信息学工具最简单的方法是什么?剪接 EST 和 RNA 测序数据是一种选择吗?我是生物信息学的新手,您的建议对我很有用。

提前致谢

4

2 回答 2

1

我有点不清楚您想要的最终产品或输出到底是什么样子。但我可能会建议做多个序列比对并寻找那些得分高的。如果这个 10KB 的序列有一些已知的序列,但它们不会完全匹配,那么我认为您需要一个程序,它可以为您提供比对分数,而不仅仅是简单的匹配。我将 Perl 与Clustal结合使用进行对齐。基本上,您需要根据这些文件格式的各自约定制作具有 10KB 序列和已知感兴趣序列的 .fasta 或 .aln 文件。如果您不太精通编程,可以使用 clustal 的 GUI 版本。如果你想使用 Perl,这是我编写的用于对齐整个 .fasta 文件目录的脚本。它可以一口气执行许多对齐。注意:您必须编辑最后一行(系统调用)中的 clustal 可执行路径以匹配其在您的计算机上的位置,以便此脚本运行。

#!/usr/bin/perl 


use warnings;

print "Please type the list file name of protein fasta files to align (end the directory    path with a / or this will fail!): ";
$directory = <STDIN>;
chomp $directory;

opendir (DIR,$directory) or die $!;

my @file = readdir DIR;
closedir DIR;

my $add="_align.fasta";

foreach $file (@file) {
 my $infile = "$directory$file";
 (my $fileprefix = $infile) =~ s/\.[^.]+$//;
 my $outfile="$fileprefix$add";
 system "/Users/Wes/Desktop/eggNOG_files/clustalw-2.1-macosx/clustalw2 -INFILE=$infile -OUTFILE=$outfile -OUTPUT=FASTA";
}
于 2012-10-09T05:01:25.113 回答
0

您是否有 linux 服务器或计算机,或者您是否依赖基于 web 和 windows 的程序?

为了对齐 RNA-seq 读取,人们通常使用像 Tophat 这样的剪接读取对齐器,尽管 BLAST 可能也可以。

最初我写了很长的回复来解释如何在 Linux 中做到这一点,但我刚刚意识到 Galaxy 对于初学者来说可能是一个更容易的解决方案。Galaxy 是一个具有非常用户友好界面的在线生物信息学工具;它专为初学者设计。您可以在此网站注册并登录:https ://main.g2.bx.psu.edu/

有关于如何做事的教程(请参阅“帮助”菜单),但我为您的实验的基本工作流程将是这样的:

  • 登录银河
  • 上传 RNA-seq 读数、EST 读数和 10K 基因组序列
  • 在左侧菜单中,单击展开“NGS-RNA 测序”,然后单击“Tophat for Illumina(假设您的 RNA-seq 读取是 Illumina fastq 读取)”
  • 使用 Tophat 对齐您的 RNA-seq 读数,确保选择您的 10K 序列作为参考基因组。
  • 尝试将您的 EST 读数与其中一个程序对齐。我不确定这会有多成功,Tophat 并非设计用于处理长序列,因此您可能需要玩一些游戏或有点创意才能让它发挥作用。
  • 根据您的 RNA-seq 读数和/或 EST 序列,使用袖扣为新的基因模型创建注释。

关于查看输出,我不确定 Windows 上的自定义参考序列有什么可用的,您可能需要做一些研究。对于 Linux/Mac,我推荐 IGV。

于 2013-01-09T11:21:00.250 回答