问题标签 [fasta]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
regex - 使用 grep 测试文件是否是有效的 FASTA(即匹配单个正则表达式的完整文件)
什么是测试给定文件是否为有效 FASTA 的简单方法:
valid_example.fasta
我尝试了以下方法,但如果至少有 1 个有效基因,而不是所有基因,它会给出匹配
python - 使用 Biopython (Python) 从 FASTA 文件中提取序列
好的,所以我需要使用 python(biopython, http: //biopython.org/DIST/docs/tutorial/Tutorial.html )从 FASTA 文件中提取部分序列
我需要从每个序列中获取前 10 个碱基并将它们放在一个文件中,保留 FASTA 格式的序列信息。最糟糕的是,如果没有办法保留序列信息,我可以只使用碱基。所以这里有一个例子:
我需要一些方法来获得前 10 个基地(然后我计划在最后 10 个基地再做一次)。该教程网站非常详尽,但我对此并不陌生,因为它没有涉及到这个,我什至不确定它是否可能。谢谢你提供的所有帮助。
python - 使用 python/biopython 翻译混合的 fasta 文件
所以我有一个程序,它从数据库中获取一堆序列并将它们下载到一个 fasta 文件中。问题是这些序列可能是蛋白质,也可能是 DNA。我将大的 fasta 文件拆分成许多小的 fasta 文件,一旦我有了序列,我需要它们都是蛋白质。所以我想测试每一个,看看它是否是蛋白质。
如果它们都是蛋白质,我很好,如果它们都是 dna,我有一种优雅的方式来翻译它们,但我需要找到一种方法来测试每个新的 fasta 文件,翻译它并进行翻译替换dna文件
这是我到目前为止所拥有的:
我尝试将其设置为字符串(我认为),但我不能使用字母,因为这不是 fasta 的格式,我尝试了很多其他的东西。无论如何,任何帮助将不胜感激。
只是对于那些不熟悉的人来说,fasta 文件的格式如下:
bash - 如何使用 awk 和条件管道提交 qsub 作业?
我有一个文件(fasta),我正在使用 awk 从(带有标题的序列)中提取所需的字段。然后我通过管道将其传输到 BLAST 程序,最后通过管道将其传输到 qsub 以提交作业。文件:
和命令(有效):
我想做的是添加一个条件,如果它低于某个阈值,则将对我正在运行的作业数量(使用 qstat)进行采样,该作业将被提交。例如:
不幸的是(无论如何对我来说)我所有的尝试都失败了。我会很感激任何帮助
编辑:详细说明:我想做的是从fasta文件中提取:
或者基本上: >HEADER\nSEQUENCE 一个接一个,并将其通过管道传输到可以采用标准输入的爆炸程序。我想为每个序列创建一个独特的作业,这就是我想为每个序列管道到 qsub 的原因。说白了,qsub 提交看起来像这样:
请注意,如果标准输入序列通过管道传递给它,则 -query 标志是不必要的。但是,对我来说主要的问题是如何结合我上面提到的条件,以便仅当 qstat 结果低于阈值时,序列才会被传送到 qsub。理想情况下,如果 qstat 结果高于阈值,它将休眠直到 i 低于阈值,然后将其向前传递。
谢谢。
perl - 如何将多个 perl 程序转换为可以安装的软件?
我自己编写了多个 perl 程序,它们计算基因组参数、更改标题、从基因组数据或 fasta 序列中提取特定序列。有什么方法可以构建一个包/软件,它可以通过单击菜单中的按钮并使用我的 perl 程序来计算上述内容。
python - 使用 BioPython 根据序列过滤 FASTA 文件
我有一个fasta文件。从该文件中,我需要获取在序列的末尾和/或开头包含GTACAGTAGG
and的唯一序列,并将它们放入新的 fasta 文件中。CAACGGTTTTGCC
所以这里有一个例子:
(*
添加用于突出显示)
我需要一些方法来获取在序列的末尾和/或开头包含 GTACAGTAGG 和 CAACGGTTTTGCC 的唯一序列,并将它们放在新的 fasta 文件中。我对此很陌生。我什至不确定是否可以做到。提前感谢您提供的任何帮助。
perl - 如何在输入期间从 FASTA 格式文件中删除第一行?
我想从 FASTA 文件中删除输入期间的第一行,以便我的程序仅将氨基酸序列作为输入。
FASTA 文件的第一行以开头,>
它包含序列的“入藏号”及其来源。例如:
python - 合并从 contigs.fa 生成的两行
我有一个由汇编程序生成的文件。它看起来像以下。
我想使用 python 或 linux sed 命令合并这些行,并希望以这种方式得到结果。
像每个序列一样,将其视为单行,将节点名称视为另一行。
r - 如何从多个 DNA 距离文件在同一张图上绘制多个直方图?
我有 100 个 fasta 文件,我想绘制遗传距离矩阵的重叠直方图,以查看 DNA 数据的引导复制之间有多少重叠?
我已经想出如何让猿使用以下方法读取每个文件:
然后使用以下方法为每个生成一个遗传距离矩阵:
当我从 R 控制台调用它们时,遗传距离文件如下所示:
我遇到麻烦的地方是绘制每个直方图,以便每个引导程序将在同一个窗口中绘制在另一个之上,下面的脚本只是在一个全新的窗口中绘制每个,并且不会重叠它们:
我知道这可以通过以下方式完成:
.......到最后一个文件
但我认为这将是很多工作,这对于 100 个文件来说很好,但如果其他人拥有 1,000 个文件(例如,使用 GenBank 数据工作的人等),这可能太多了。
我还尝试通过使用一些 Unix 将不同的文件粘贴到 \t 分隔的列列表中来解决这个问题:
该文件看起来像这样,我“” \t 试图明确它们是如何分开的
但我不知道如何让 read.dna 将每一列作为单独的数据矩阵读取,我可以让 read.table 读取文件,但卡在那里,
在这一点上我完全被难住了,因为我是一个新的 R 用户,我已经在网上做了很多寻找这个问题的解决方案,似乎没有一个我发现不涉及一些正如我上面所描述的那样做这件事的困难方法的变体,也许 lattice 可以完成工作?
perl - perl 序列提取循环
我有一个现有的 perl one-liner(来自 Edwards 实验室),它可以很好地读取ids.file
包含一列 ID 的文本文件(fasta.file
名为格式)并返回与第一个文件中的 ID 匹配的序列。我希望扩展这个脚本来做两件额外的事情:
- 当前的 perl one-liner似乎仅
ids.file
在包含一列数据时才有效。我希望它适用于包含两列(由空格分隔)的文件,并作用于第二列数据(嗯,实际上是任何数据列,但我认为如果有人调整它会很明显可以使用第二列举个例子) - 我想将从搜索输出返回的任何结果附加到第三列,而不仅仅是一个新文件。
如果有人愿意提供一个示例,但只有时间或意愿来处理其中一个问题,我希望您尝试解决 #2 - 我已经接近解决 #1 的 for 循环,该循环仅使用 awk使用第二列中的 Perl 代码 - 我还没有得到它,但已经接近了,所以 #2 对我来说似乎更难。
perl 一号线如下:
感谢您提供的任何帮助!