问题标签 [fasta]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
perl - 如何在 Perl 中合并两个 FASTA 文件(一个带换行符的文件)?
我有两个以下 Fasta 文件:
文件1.fasta
文件 2.qual
请注意每个 fasta 标头的“qual”文件中的换行符 - 用“>”标记。两个文件的文件头 ('>') 的数量相同。数字质量的数量=序列长度。
我想要做的是附加这两个文件产生:
但不知何故,我下面的代码无法正确执行?特别是 'qual' 文件中每个条目的第二行不会被打印出来。
正确的方法是什么?
shell - 使用 SED/AWK 将 FASTQ 转换为 FASTA
我有一个数据,它总是以以下格式(称为 FASTQ)以四个为一组:
是否有一种简单的 sed/awk/bash 方法可以将它们转换成这种格式(称为 FASTA):
原则上,我们希望提取每个 4 块中的前两行并替换@
为>
.
python - Python:从fasta格式的序列开头删除字符
我有 fasta 格式的序列,在序列的开头包含 17 bp 的引物。并且引物有时会出现错配。因此,我想删除序列的前 17 个字符,除了 fasta 标头。
序列如下所示:
我怎样才能在python中做到这一点?
谢谢!乔恩
bioinformatics - multiFASTA 文件处理
我很想知道是否有任何生物信息学工具能够处理 multiFASTA 文件,为我提供序列数量、长度、核苷酸/氨基酸含量等信息,并可能自动绘制描述图。也可以使用 R BIOconductor 解决方案或 BioPerl 模块,但我没有找到任何东西。
你能帮助我吗?非常感谢 :-)
c# - 在 C# 中读取 FASTA 文件的最佳方法
我有一个包含几个蛋白质序列的 FASTA 文件。格式就像
有没有一种好方法可以读取这个文件并分别存储序列?
谢谢
perl - 在 FASTA 文件中搜索主题并返回包含主题的每个序列的标题行
下面是我在命令行输入的 FASTA 文件中搜索用户提供的主题的代码。当我运行它并输入一个我知道在文件中的主题时,它会返回“找不到主题”。我只是 Perl 的初学者,我不知道如何让它打印找到的主题,更不用说返回标题行了。我将不胜感激任何帮助解决这个问题。
谢谢。
bioinformatics - 按 GC 内容对序列读取进行分箱
我想“装箱”(拆分成单独的文件)一个多fasta核苷酸序列文件(例如,Roche-454运行约500,000次读取,平均读取长度为250bp)。我想要基于每次读取的 GC 内容的垃圾箱。结果输出将是 8 个多 fasta 文件:
<20% GC含量
21-30% GC含量
31-40% GC含量
41-50% GC含量
51-60% GC含量
61-70% GC含量
71-80% GC含量
>80 % GC 含量
有谁知道已经这样做的脚本或程序?如果没有,有人可以建议如何根据 GC 内容对多 fasta 文件进行排序(然后我可以将其拆分为相关的垃圾箱)?
python - python中大文件的高效文件缓冲和扫描方法
我遇到的问题的描述有点复杂,我会在提供更完整的信息方面犯错。对于不耐烦的人,这是我可以总结的最简短的方式:
在抛出换行符的同时,将文本文件拆分为大小为 N(绑定 N,例如 36)的所有(重叠)子字符串的最快(最少执行时间)方法是什么。
我正在编写一个模块来解析基于 FASTA ascii 的基因组格式的文件。这些文件包含所谓的“hg18”人类参考基因组,如果您愿意,您可以从UCSC 基因组浏览器下载(加油!)。
您会注意到,基因组文件由 chr[1..22].fa 和 chr[XY].fa 以及一组在本模块中未使用的其他小文件组成。
已经存在几个用于解析 FASTA 文件的模块,例如 BioPython 的 SeqIO。(抱歉,我会发布一个链接,但我还没有这样做的要点。)不幸的是,我能够找到的每个模块都没有执行我想要执行的特定操作。
我的模块需要将基因组数据(例如,'CAGTACGTCAGACTATACGGAGCTA' 可能是一条线)拆分为每个重叠的 N 长度子字符串。让我举一个例子,使用一个非常小的文件(实际的染色体文件长度在 355 到 2000 万个字符之间)并且 N=8
从我能想到的方法中,我发现的功能绝对是最好的:
这可行,但不幸的是,以这种方式解析人类基因组仍然需要大约 1.5 小时(见下面的注释)。也许这是我将使用这种方法看到的最好的方法(可能需要进行完整的代码重构,但我想避免它,因为这种方法在代码的其他领域有一些非常具体的优势),但我我想我会把它交给社区。
谢谢!
- 请注意,这一次包括很多额外的计算,例如计算反向链读取和对大约 5G 大小的哈希进行哈希表查找。
回答后结论:事实证明,与程序的其余部分相比,使用 fileobj.read() 然后操作生成的字符串(string.replace() 等)花费的时间和内存相对较少,所以我使用了方法。感谢大家!
python - 将 GenBank 平面文件转换为 FASTA
我需要解析一个初步的 GenBank 平面文件。该序列尚未发布,因此我无法通过加入来查找它并下载FASTA文件。我是生物信息学的新手,所以有人可以告诉我在哪里可以找到一个 BioPerl 或 BioPython 脚本来自己做这个吗?谢谢!
python - 如何从 BLAST 输出中获取无限制的序列?
我有兴趣从 FASTA 格式的 BLAST 输出中获取无间隙序列。我以为我可以使用hsps_no_gap
,但它不起作用。有什么方法可以用来完成这项工作吗?