问题标签 [fasta]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
perl - 无法从 Emsembl FASTA 中删除换行符
我正在尝试从 Ensembl FASTA 文件中查找蛋白质基序。我已经完成了大部分脚本,例如检索序列 ID 和序列本身,但我收到了一些有趣的结果。
发生的情况是,如果在一行数据的末尾和下一行的开头找到了主题,它将返回带有数据中换行符的主题。这种获取数据的方法以前效果很好。
样本结果:
这就是问题。主题匹配但返回前半部分,换行符,然后在同一行打印下半部分(这是更大问题的症状 - 摆脱换行符!)
我@seq =~ s/\r//g
在脚本中的不同位置尝试了不同的方法,例如 or `s/\n//g。
python - 如何在两个非常大的 fasta 文件中找到具有相同名称的序列并将它们连接起来?
我有两个非常大的 fasta 文件,都在 2GB 左右。他们有一些序列共享相同的名称,所以它就像:
在 R1.fasta 中:
">ABC001 ACTGTGTCGTG
">ABC003 ACTGTGTCGTG
">ABC005 ACTGTGTCGTG
">ABC010 ACTGTGTCGTG
并在 R2.fasta
">ABC002 ACTGTGTCGTG
">ABC003 ACTGTGTCGTG
">ABC005 ACTGTGTCGTG
">ABC009 ACTGTGTCGTG
我想找到两个文件之间的共享序列,可以写入一个新的 fasta 文件并将两个序列连接起来,因此新文件如下所示:
">ABC003 ACTGTGTCGTG-----ACTGTGTCGTG
">ABC005 ACTGTGTCGTG-----ACTGTGTCGTG
我已经编写了一个 python 脚本来完成这项工作,但它运行得非常慢。我想知道是否有更快的方法来做到这一点。谢谢!代码是这样的:
perl - fasta:删除 n 长度后的序列
我有多个 fasta 文件,每个文件中包含 1000 个不同长度的 seq。我想只保留每个序列的前 200 (n) 个碱基。我怎样才能在 Perl 中做到这一点?
perl - 基于位置提取fasta序列
我是perl的新手。还在学习。
我有一个fasta格式的文件。我想提取跨越特定位置的序列。例如,从位置 200 到 300
我想从序列中提取位置 200-300 的序列Contig[0001]
。输出将是:
我的 fasta 文件中有近 500 个序列,并且在包含 id start end 的制表符分隔文件中有所需的位置。
如果有人能在这方面帮助我,那就太好了。
非常感谢您的所有帮助。我不确定我是否可以提供包含有关职位信息的文件。
新手
python - 如何使用 python 在文件中插入多个换行符?
我有一个不包含任何返回字符的 fasta 文件。该文件看起来像这样:
我一直在尝试制作一个 python 程序来读取这个文件,并在每个序列 ID 和序列本身的末尾插入一个换行符。我希望输出看起来像这样:
到目前为止,我有这个:
没有错误消息(语法是“正确的”)但是我没有生成我想要的特定输出。任何建议将不胜感激。
python - 解析 fasta 序列文件以在 Python 中检索标题和序列
我必须制作一个通用解析器来使用 Python 解析 fasta 文件。
格式如下:
我必须分别检索每个标题和序列,并将值插入我创建的 MySQL 数据库中。
等等...我将这些值插入到 MySQL 表中。
我的解析输出应该是这样的:
到目前为止,我已经编写了一个非常基本的脚本,如下所示:
我只得到我的第一个序列和标题。
我是新手,需要专家帮助。
string - 根据另一个文件的信息从一个文件中提取行和子字符串
我有一个1.blast
像这样的坐标信息的文件
和一个1.fasta
像这样的序列信息的文件
我现在正在搜索一个脚本,该脚本从1.blast
第一列提取并提取那些序列 ID(=第一列$1
)加上序列,然后从序列本身中提取除了文件之间和文件中的位置之外的所有位置,$7
这意味着从前两个匹配输出将是$8
1.fasta
(请注意,前三个条目>1
不在此序列中)
ID 是连续的,这意味着我可以像这样提取所需的信息:
这给了我一个矩阵,它在第一列中包含正确的序列标识符行,在第二列中包含正确的序列行(= ID 行之后的一个),然后是应该排除的两个坐标。所以基本上一个矩阵包含所有需要的信息,1.fasta
应该从中提取元素
不幸的是,我没有太多的脚本编写经验,因此我现在有点迷茫,如何在合适的sed
命令中输入值?我可以得到这样的特定行:
以及我想删除的字符串,例如通过
但我现在的问题是,如何将第一次awk
调用的信息通过管道传输到其他命令中,以便它们提取正确的行并从序列行中删除,然后是给定的坐标。所以,substr
这不是正确的命令,我需要一个remstr(string,start,stop)
从给定字符串中删除这两个位置之间的所有内容的命令,但我认为我可以在自己的脚本中执行此操作。特别是正确的管道对我来说是个问题。
python - python 2.7.3 中出现无效语法错误的问题
我正在尝试运行脚本(见下文)以读取 fasta 文件并输出分类文件(仅打印不带“>”字符的序列标题)但我不断收到无法解决的语法错误. 结果,该脚本创建了 cleanseqs.tax 文件,但该文件为空白。有人可以帮忙吗?
谢谢!
python - 如何对文件中的多个字符串进行多次修改并输出到新文件
我是 pythong 编程的新手,并且有一个我想解析以在特定软件中使用的 fasta 文件。该文件包含两行:1) 一个序列标识符和一个由空格分隔的分类,分类中的最后一个物种名称也可能包含空格,以及 2) 一个 dna 序列(参见下面的示例):
经过一番努力和一些帮助,我设法将我的 fasta 文件解析为仅显示序列 ID 和分类的分类文件:
但是对于我使用的软件,需要以特殊方式格式化分类文件。分类文件的内容必须:1) 删除 fasta 文件中的“>”,2) 用制表符将标识符和分类与每个序列头分开(即替换字符串中第一次出现的空格通过制表符),3)将分类字符串中的所有空格替换为“_”,并以分号结束分类(参见下面的示例):
我一直在尝试通过摆弄我的工作脚本来做到这一点:
修改如下:
但这根本行不通。有谁知道我该怎么做?
非常感谢您的帮助!
string - 连接具有匹配字符串的 2 个文件中的 2 行
我还是 Unix 的新手,但是我很想学习它。我有 2 个文件,有些行有一些匹配的子字符串,我想将这些行连接成一行,而其他行保持不变。下面是一个例子。
文件 1(fasta 文件):
文件 2:
所需的输出:
我尝试为此使用 awk 和 perl,但我从未将它们放入一个文件中。
我感谢任何帮助,最好的问候,M