问题标签 [fasta]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
218 浏览

applescript - 从 perl 和 ruby​​ 脚本创建一个 applescript?

我从http://ncbi.nlm.nih.gov/genomes/FLU/Database/nph-select.cgi#mainform下载蛋白质序列,文件名为 FASTA.FA。对于文件中的每个蛋白质,它包括一个描述行,然后在每 70 个字符后用新行分隔蛋白质序列。

例子:

>CAA47401 B/Yamagata/16/88 1988// NA MLPSTIQTLTLFLTSGGVLLSLYVSASLSYLLYSDILLKFSPTEITAPKVPLDCANASNVQAVNRSATKG MTLLLSEPEWTYPRLSCQGSTFQKALLISPHRFGESRGNSAPLIIREPFIACGPKECKHFALTHYAAQPG >AAB26739 Influenza B virus 1973// NA MLPSTIQTLTLFLTSGGVLLSLYVSASLSYLLYSDILLKFSPTKITAPTMSLDCANVSNVQAVNRSATKE DVPCIGIEMVHDGGKETWHSAATAIYCLMGSGQLLWDIVTGVAMAL

我有一个 ruby​​ 脚本,可以将其转换为更适合 Excel 的文件,其中第一行获取一个单元格,整个蛋白质序列获取另一个单元格(perl 在两者之间创建一个制表符,Excel 将用制表符分隔的内容放在一个新单元格中) .

这是我的脚本:

在我下载文件的网站上,您可以更改第一行的格式,我在每个描述之间添加一个“+”,然后我有一个将 + 转换为制表符的 perl 脚本(一些描述中有一个空格) ,所以我不能使用空格作为分隔符)。

这两个 hack 成功地为我创建了一个不错的 excel 文件,并且我从我的 Dock 中的这两个脚本制作了一个 Automator 程序。

但是,现在我的小组希望我从中创建一个 AppleScript。如果我理解正确的话,它并不像只输入“do shell script”然后粘贴脚本那么简单,但您必须格式化实际脚本本身,以便applescript 理解它。有人可以帮我创建这个吗?

谢谢!

0 投票
1 回答
297 浏览

perl - 如何获得 FASTA 完全匹配的正确计数?

我必须在基因组序列的FASTA 文件wTTTAYRTTTW中搜索模式,其中W= Aor T, Y= Cor T, R= Aor 。应该允许一些不匹配,即完全匹配字符串及其位置。我的做法是:R

这段代码发现的结果对于FASTA文件中给定序列NC_004314.2的精确匹配是错误的,总匹配数应该是829。任何人都可以纠正这个代码吗?

0 投票
4 回答
583 浏览

regex - 如何制作 FASTA 文件中特定模式出现的直方图?

我为以下生物信息学问题编写了一个 Perl 脚本,但不幸的是,输出存在问题。

问题

1)从40,000个唯一序列的文件中,唯一的意思是序列ID号,提取以下模式

2)对于每个序列,查找是否$pattern出现在的值之间

  • 0-100
  • 100-200
  • 200-300
  • ...
  • 900-1000
  • 1000

如果某个序列的长度小于 1000 个字符,则即使如此,也必须保持除法,即 0-100,100-200 等。

问题

我遇到的主要问题是计算每个序列细分出现 $pattern 的次数,然后为所有序列添加它的计数

例如,对于序列 1,假设 $pattern 在长度 >1000 处出现 5 次。对于序列 2,假设 $pattern 在长度>1000 时出现 3 次。那么总数应该是 5+3 =8。

相反,我的结果是这样的: (5+4+3+2+1) + (3+2+1) = 21 即累计总数。

对于每个 100 个字符的前 10 个细分,我面临同样的问题。

如果可以为此计算提供正确的代码,我将不胜感激。

我写的代码如下。它很大程度上来自 Borodin 对我之前的一个问题的回答:Perl: Search a pattern across array elements

他的答案在这里:https ://stackoverflow.com/a/11206399/1468737

代码

我还附上了我正在使用的文件的一小部分。这个文件的标题是small.fa,我一直在尝试使用这个文件,然后才转到包含超过 40,000 个序列的更大文件。

感谢您花时间解决我的问题。

任何帮助和输入将不胜感激。

感谢您花时间解决我的问题!

0 投票
1 回答
459 浏览

bioinformatics - Bioperl 读取 fasta 序列

我发现如果我的 fasta 文件以单行序列结尾,那么 Bioperl 返回的该序列将缺少一个核苷酸。如果 fasta 文件以新行结尾,则返回完整序列。不明白为什么?这是否要求 fasta 文件以空的新行结尾?

这是我正在使用的代码

和fasta序列:

gi|37423|emb|X04588.1| 用于细胞骨架原肌球蛋白 TM30(nm) 的人 2.5 kb mRNA CCCTTTAAATTTCCCTTTAAATTTCCCTTTAAATTTT

0 投票
5 回答
10102 浏览

python - 连接多个 .fasta 文件

我正在尝试将数百个 .fasta 文件连接成一个包含所有序列的大型 fasta 文件。我还没有在论坛中找到实现此目的的特定方法。我确实从http://zientzilaria.heroku.com/blog/2007/10/29/merging-single-or-multiple-sequence-fasta-files中看到了这段代码,我对它做了一些调整。

Fasta.py 包含以下代码:

这是连接 .fasta 文件的改编脚本:

它能够读取 fasta 文件,但新创建的输出文件不包含序列。我收到的错误是由于 fasta.py,这超出了我的能力范围:

有什么建议么?谢谢!

0 投票
8 回答
9953 浏览

python - 拆分fasta文件并根据第一行重命名

我有一个包含以下内容的大文件:

文件名:input.txt

我需要以这样的方式拆分此文件,以便获得四个单独的文件,如下所示:

文件 1:chr1.fa

文件 2:chr2.fa

文件 3:chr3.fa

文件 4:chr2_random.fa

我在 linux 中尝试了 csplit,但无法通过“>”之后的文本重命名它们。

0 投票
4 回答
12947 浏览

r - 使用 R 包 seqinr 编写 fasta 文件?

当我在 seqinr 中使用 write.fasta 时,它输出的文件如下所示:

也就是说,序列名称都在文件的开头,然后在文件的末尾将这些序列一起输出。

我想做的是:

write.fasta 有可能吗?

0 投票
1 回答
156 浏览

regex - 我需要在文件的标题行中搜索一个模式并将下一行与 Perl 连接起来

我的 multi-fasta 存档格式如下:

我是 Perl 的新手,我需要搜索等号“> 行”并连接下一行以加入序列。

我期待上述文件的以下输出:

完成这项工作的最佳方法是什么?

0 投票
1 回答
1194 浏览

python - 从 FASTA 文件中计算二氨基酸频率(Bigram 频率)

给定大量的 FASTA 文件(用于分泌肽的各种生物的肽组),我如何使用 Python(或 Matlab)读取 FASTA 文件(来自 UNIProt),并计算每个氨基酸的频率,和氨基酸“双”配对?

(IE - 输出应该有每个单独氨基酸的百分比(22 个字母/字符中)和氨基酸配对的频率。

实际上,我想计算字母对的二元组(或 n-gram,如果易于实现)频率。

在 FASTA 文件中,这 22 个氨基酸分别由一个唯一的字母表示,每个蛋白质的名称在其行前以 > 开头。(已经解析过了,所以只剩下相关的字符)

文件样本:

FFKA

FLRN

MTTVSYVTILLTVLVQVLTSDAKATNNKRELSSGLKERSLSDDAPQFWKGRFSRSEEDPQ FWKGRFSDPQFWKGRFSDPQFWKGRFSDPQFWKGRFSDPQFWKGRFSDPQFWKGRFSDPQ FWKGRFSDGTKRENDPQYWKGRFSRSFEDQPDSEAQFWKGRFARTSSGEKREPQYWKGRF SRDSVPGRYGRELQGRFGRELQGRFGREAQGRFGRELQGRFGREFQGRFGREDQGRFGRE DQGRFGREDQGRFGREDQGRFGREDQGRFGREDQGRFGRELQGRFGREFQGRFGREDQGR FGREDQGRFGRELQGRFGREDQGRFGREDQGRFGREDLAKEDQGRFGREDLAKEDQGRFG REDIAEADQGRFGRNAAAAAAAAAAAKKRTIDVIDIESDPKPQTRFRDGKDMQEKRKVEK KDKIEKSDDALAKTS

非常感谢!

0 投票
1 回答
945 浏览

java - 将 GenBank 格式文件转换为 FASTA 格式

我对 Java 很陌生,想构建一个可以将 GenBank 文本文件转换为 FASTA 格式的程序。基本上会有两个 texboxes:一个是我上传 GenBank 格式文件的地方,另一个是显示转换后的 FASTA 格式文件的地方。

这是一个 GenBank 格式文件:

其对应的FASTA格式文件为:

任何人都可以帮助我提供有关如何修剪 GenBank 文件并通过单击按钮将其显示在第二个文本框中的方法或代码的建议。

我正在使用 Netbeans 6.9。