问题标签 [fasta]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
405 浏览

split - 读取蛋白质 fasta 文件并在 Arginine(R) 处拆分读取字符串,然后对肽进行爆炸以获得匹配项?

我有以下 fasta 文件:

我想遍历 FASTA ,在它遇到的所有“R”处拆分蛋白质序列,这将生成肽,然后对肽进行分解。从blastp 获取结果并将blastp 结果存储在fasta 文件中每个蛋白质ID 的单独文件中。我对使用什么语言并不特别。我想了解如何做到这一点,以便我可以在其之上构建更多功能。谢谢!

0 投票
1 回答
160 浏览

python - 反复访问 LARGE fasta 文件。最高效的方法?

我正在使用 Biopython 打开一个大的单条目 fasta 文件(514 兆碱基),这样我就可以从特定坐标中提取 DNA 序列。返回序列的速度相当慢,我只是想知道是否有更快的方法来执行我还没有想到的这项任务。速度不会只是一两次点击的问题,但我正在遍历 145,000 个坐标的列表,这需要几天时间:/

0 投票
4 回答
124 浏览

regex - 删除以唯一模式开头的行中的字符

我有一个由许多条目组成的文件,如下所示:

即以 > 开头的标题行和许多序列行,然后是标题行。我正在尝试编写一个 sed 脚本,该脚本仅转到以 > 开头的行(而不是序列行),并删除除前 10 个数字之外的所有数字。

有很多类似的问题,但我无法弄清楚。我一直在尝试对此代码的变体:

但显然我做得不对..

0 投票
3 回答
306 浏览

regex - Grep word in one file, and use that word to match in FASTA file, adding the FASTA sequence to the first file

I want to grep several words in file1, and use each word to grep what follows after its match in file2.fasta. And then I want to add the thing that followed the match to the word I used into file03, so that file03 contains information from both files. Part of files I have are:

file1:

And a Fasta file (file2) like this:

The output I want is for this example:

As you can see, I simply want to add the FASTA sequence - which is contained in file2 – to file1. If anyone knows how to do this I would greatly appreciate it!

0 投票
1 回答
844 浏览

perl - 用perl缩短(减去)标题并删除fasta文件中的空行

我有一个这样的fasta文件,标题如下:

我想将标题更改为仅包含 GL 和 6 位数字,并删除每个标题上方的空行,如下所示:

任何人都可以为此分享一个perl脚本吗?谢谢

0 投票
1 回答
1014 浏览

python - 从 FASTA 标题中提取术语

我需要为以下术语解析 FASTA 标题:叶子、芽、茎和嫩芽,如果一个序列包含任何一个术语,那么我打开一个文件并使用 Biopython 将其放置在那里。

所以我使用以下方法将它们转换为字典SeqIO.to_dict

但现在我不知道如何从标题中获取条款。序列如下所示:

0 投票
1 回答
243 浏览

python - Python:在 fasta 标头中添加增量 ID

我尝试从标头中具有增量 ID 的 .csv 文件创建多 fasta。但是我的脚本效果不佳。有什么建议吗?

0 投票
4 回答
316 浏览

regex - 使用正则表达式从 fasta 文件中获取特定序列

我想从输入fasta文件中检索第n序列(或者最好是第n到第m序列),最好使用unix“单线”。

我知道我可以用 perl(或任何其他脚本语言)读取序列,计数,然后打印序列,但我正在寻找更快、更紧凑的东西。

对于那些不知道的人,示例 fasta 文件如下所示:

0 投票
5 回答
238 浏览

python - 将公式应用于跨越多行的数据行

我只是迈出了尝试学习一点 Python 的第一步。目前正在学习旨在教授生物信息学 python 技能的 Rosalind 在线课程。(顺便说一句,非常好,请参阅:rosalind.info)

我正在努力解决一个特定问题。我有一个 FASTA 格式的文件,其格式如下:

我需要计算文件每个条目(不包括标题)中 G 和 C 的百分比并返回这个数字,例如:

到目前为止,我的代码是:

几乎是我需要它做的事情。我只是在序列数据跨越多行时遇到了麻烦。目前我得到文件中每一行的 % GC 内容,而不是为每个条目返回一个数字,例如:

如何将我的公式应用于跨越多行的数据?

提前致谢,

0 投票
1 回答
76 浏览

workflow - 如何缩短基因组序列以确保我的工作流程正常运行?

我是来自德国海德堡大学的莫里茨。

对于我的学士论文,我有 20 个肝细胞癌患者的大型 (25-30 GB) 基因组文件 (.txt.gz)。我在我的 Ubuntu 服务器上安装了 Bpipe,我必须尝试几种方法。

包括的步骤是:

  • 针对 hg19.fasta 的对齐(BWA(转换 sai 和 sam))
  • 变换 (samtols)
  • 重复数据删除

我遇到的问题是,为了尝试我的 bpipe 工作流程,我必须占用 30 GB 的整个序列并从头开始。这需要很多时间。所以我的问题是:

如何缩短一个文件?

在哪里可以找到可用于测试管道的短序列?