问题标签 [fasta]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
split - 读取蛋白质 fasta 文件并在 Arginine(R) 处拆分读取字符串,然后对肽进行爆炸以获得匹配项?
我有以下 fasta 文件:
我想遍历 FASTA ,在它遇到的所有“R”处拆分蛋白质序列,这将生成肽,然后对肽进行分解。从blastp 获取结果并将blastp 结果存储在fasta 文件中每个蛋白质ID 的单独文件中。我对使用什么语言并不特别。我想了解如何做到这一点,以便我可以在其之上构建更多功能。谢谢!
python - 反复访问 LARGE fasta 文件。最高效的方法?
我正在使用 Biopython 打开一个大的单条目 fasta 文件(514 兆碱基),这样我就可以从特定坐标中提取 DNA 序列。返回序列的速度相当慢,我只是想知道是否有更快的方法来执行我还没有想到的这项任务。速度不会只是一两次点击的问题,但我正在遍历 145,000 个坐标的列表,这需要几天时间:/
regex - 删除以唯一模式开头的行中的字符
我有一个由许多条目组成的文件,如下所示:
即以 > 开头的标题行和许多序列行,然后是标题行。我正在尝试编写一个 sed 脚本,该脚本仅转到以 > 开头的行(而不是序列行),并删除除前 10 个数字之外的所有数字。
有很多类似的问题,但我无法弄清楚。我一直在尝试对此代码的变体:
但显然我做得不对..
regex - Grep word in one file, and use that word to match in FASTA file, adding the FASTA sequence to the first file
I want to grep several words in file1, and use each word to grep what follows after its match in file2.fasta. And then I want to add the thing that followed the match to the word I used into file03, so that file03 contains information from both files. Part of files I have are:
file1:
And a Fasta file (file2) like this:
The output I want is for this example:
As you can see, I simply want to add the FASTA sequence - which is contained in file2 – to file1. If anyone knows how to do this I would greatly appreciate it!
perl - 用perl缩短(减去)标题并删除fasta文件中的空行
我有一个这样的fasta文件,标题如下:
我想将标题更改为仅包含 GL 和 6 位数字,并删除每个标题上方的空行,如下所示:
任何人都可以为此分享一个perl脚本吗?谢谢
python - 从 FASTA 标题中提取术语
我需要为以下术语解析 FASTA 标题:叶子、芽、茎和嫩芽,如果一个序列包含任何一个术语,那么我打开一个文件并使用 Biopython 将其放置在那里。
所以我使用以下方法将它们转换为字典SeqIO.to_dict
:
但现在我不知道如何从标题中获取条款。序列如下所示:
python - Python:在 fasta 标头中添加增量 ID
我尝试从标头中具有增量 ID 的 .csv 文件创建多 fasta。但是我的脚本效果不佳。有什么建议吗?
regex - 使用正则表达式从 fasta 文件中获取特定序列
我想从输入fasta文件中检索第n个序列(或者最好是第n个到第m个序列),最好使用unix“单线”。
我知道我可以用 perl(或任何其他脚本语言)读取序列,计数,然后打印序列,但我正在寻找更快、更紧凑的东西。
对于那些不知道的人,示例 fasta 文件如下所示:
python - 将公式应用于跨越多行的数据行
我只是迈出了尝试学习一点 Python 的第一步。目前正在学习旨在教授生物信息学 python 技能的 Rosalind 在线课程。(顺便说一句,非常好,请参阅:rosalind.info)
我正在努力解决一个特定问题。我有一个 FASTA 格式的文件,其格式如下:
我需要计算文件每个条目(不包括标题)中 G 和 C 的百分比并返回这个数字,例如:
到目前为止,我的代码是:
这几乎是我需要它做的事情。我只是在序列数据跨越多行时遇到了麻烦。目前我得到文件中每一行的 % GC 内容,而不是为每个条目返回一个数字,例如:
如何将我的公式应用于跨越多行的数据?
提前致谢,
workflow - 如何缩短基因组序列以确保我的工作流程正常运行?
我是来自德国海德堡大学的莫里茨。
对于我的学士论文,我有 20 个肝细胞癌患者的大型 (25-30 GB) 基因组文件 (.txt.gz)。我在我的 Ubuntu 服务器上安装了 Bpipe,我必须尝试几种方法。
包括的步骤是:
- 针对 hg19.fasta 的对齐(BWA(转换 sai 和 sam))
- 变换 (samtols)
- 重复数据删除
我遇到的问题是,为了尝试我的 bpipe 工作流程,我必须占用 30 GB 的整个序列并从头开始。这需要很多时间。所以我的问题是:
如何缩短一个文件?
在哪里可以找到可用于测试管道的短序列?