问题标签 [fasta]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1068 浏览

python - 在 fasta 文件中拆分序列

我使用 fasta 文件格式,我想从中提取没有ids的序列,然后拆分序列,我写了这段代码

此步骤创建一个包含序列的文本文件,它给出:

然后,我想拆分每个序列,以获得包含三个碱基的子序列,如“CGT”,我把这段代码:

这给出了:

对我来说,我想将序列分组,每组包含三个序列,长度为 9(九个碱基),然后我将每个序列分成三个碱基的子序列,所以我必须知道每个序列的长度。

例如

然后,我对这个子序列应用一些操作,并对序列的所有长度执行相同的步骤。

有人可以帮我做到这一点,并纠正我的代码

0 投票
2 回答
1302 浏览

python - 如何拆分fasta文件

此代码用于从 fasta 文件中提取和拆分序列

然后,从分割的序列中,我想取三个序列,它的长度是 9(9 个碱基)例如:

我将第一个序列分成三个碱基的 3 个子序列,因此,从一个序列中我获得 3 个子序列,我对另外两个序列做同样的事情。

像这样:

例子:

我想将此函数应用于三个序列的每个子序列,然后在所有 fasta 文件上应用相同的东西。所以,目的是获取矩阵,例如我取第一个子序列'CGT'并应用函数 same_segment() ,它返回 28,其余 8 个子序列相同。所以我得到一个矩阵(3,3):

我能做些什么?

0 投票
2 回答
1021 浏览

python - 使用 Biopython Entrez 从 fasta 记录中访问序列元素

我有一个 refseq ID (keys_list) 列表,用于使用 BioPython Entrez 下拉序列记录。我想只访问返回的 fasta 记录中的序列,但我不想将记录写入文件来这样做。

我正在尝试以下代码

当我运行它时,我收到了错误:

如果我返回整个记录handle.read(),我可以获得整个 fasta 记录,但在这个阶段我只想访问核苷酸序列。

谁能帮我解决这个问题?

提前谢谢了。

0 投票
4 回答
404 浏览

python - 切片fasta文件

帮我,

我有一个fasta文件我想对它应用一些操作。我假设我的文件包含500个序列,for i=1 to 500我想取三个序列并应用一些功能,所以我会在166次里做同样的操作,每次我取3个序列

示例: 我的文件包含 9 个序列

我采用前 3 个序列

我应用了一些函数,然后,我取序列号 4、5、6,我做与序列号 1、2、3 相同的事情,然后我对 7、8、9 做同样的事情 这是我的函数

我的函数必须只使用这个:{"a","c","g","t"},但在 fasta 文件序列中以'>'开头,如下所示:

所以,

即:>gi|2765657|emb|Z78532.1|CCZ78532 C.californicum 5.8S rRNA gene and ITS1 and ITS2 DNA必须忽略像这样的行当我使用我的函数时,它给出了这个错误:

或错误如:KeyError: 'CGT'

我该怎么做?

0 投票
1 回答
3130 浏览

r - 在“for循环”(R)中写一个表

我在一个文本文件中有很多序列。我使用“read.fasta”函数导入这些序列。我使用“for loop”为每个序列创建核苷酸频率表,并使用“write.table”进行输出。但是它为每个序列创建一个文件(许多输出文件和每个文件都有一个序列表)。我搜索一个命令来创建一个包含所有表的文件。
注意:“mydata.txt”是一个包含许多fasta格式序列的文件

0 投票
2 回答
1872 浏览

r - 如何使用matchpattern()在R中具有许多序列(.fasta)的文件中查找某些氨基酸

我有一个文件(mydata.txt),其中包含许多fasta格式的外显子序列。我想为每个 DNA 序列(考虑框架)找到开始('atg')和停止('taa','tga','tag')密码子。我尝试使用matchPattern(来自BiostringsR 包的函数)来查找这些氨基酸:

例如 mydata.txt 可以是:

注意:read.fasta 是seqinr包中用于导入 fasta 格式文件的函数。

但是这个命令不起作用!如何使用此功能查找每个外显子序列中的起始和终止密码子?(不移帧)

0 投票
1 回答
796 浏览

python - 无法仅解析 FASTA 文件中的序列

如何 '>gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA\n'从序列中删除 id?

我有这个代码:

输出:

我的功能是:

fct()从字符串中返回一个整数。例如,ACT给出8 ie:我的函数必须将字符串序列作为输入,仅包含以下碱基 A、C、G、T

但是当我使用我的功能时,它给出了:

我尝试通过剥离行开头> 并将其余部分写入文本文件来删除 id,因此,我的文本文件output.txt只包含没有 id 的序列,但是当我使用我的函数fct时, 我发现了同样的错误:

我能做些什么?

0 投票
2 回答
107 浏览

python - 在非制表符分隔的文件中查找序列

今天我又遇到了一个问题。

我有一个看起来像的文件:

文件 A

等等(基本上是一个FASTA文件)。

在其他文件中,我有一个很好的制表符分隔信息,关于我的阅读:

文件 B

这两个文件真的很大

我想写下所有需要做的事情,只写我有问题的部分:

如果文件 B 中归档的 chr2 与文件 A 中的 >chr2 行匹配,则在文件 A 的序列中查找 CACTTTTTGTCTA (fileB)(仅在 >chr2 区域中的序列中。下一个 >chr 是不同的染色体,所以我不想在那里搜索)。

为了简化这一点,让我们查找:文件 A 中的 CACACGTGCTAG 序列

我正在尝试对文件 A 使用字典,但这完全不可行。

有什么建议么?

0 投票
1 回答
640 浏览

ruby - 按长度重新排列 FASTA 格式文件中的序列?

应该使用哪种算法将 FASTA 序列重新排列为长度顺序(最短优先)?它需要将序列按长度顺序排序,但要显示所有信息,而不仅仅是长度。

我可以使用 对序列的“长度”进行排序Bio::FastaFormat#length,将长度放入数组中,然后排序:

这会按顺序显示序列长度,但我需要能够看到的是原始 FASTA 格式,按长度顺序排列。

我不能将seq.length(每个序列的长度)添加到seq.entry(整个 fasta 格式)然后排序,因为seq.length它是一个整数并seq.entry给出字符串。我尝试转换seq.length.to_s,将其添加到seq.entry,然后排序。这是我得到的最接近的,不幸的是,长度是在一个字符串中,所以它们排序1,11,111而不是1,2,3等:

完成此操作后,我尝试使用上述sequence_id而不是整个条目,并且没有将长度转换为字符串,但其中id包含字母,因此我无法添加长度整数而不会收到错误消息。

所以,是的,有什么建议吗?

0 投票
1 回答
1455 浏览

perl - 如何计算文件中每一行的特定字符数?

我正在尝试计算 FASTA 文件中“N”的数量,即:

所以最后我想得到'N'的数量并且每个标题都是一个读取所以我想制作一个直方图所以我最后会输出这样的东西:

ETC...

所以有 300 个序列或读取有 0 个“N”