“fasta”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1364 浏览

python - 使用 biopython 解析 Fasta 文件描述

我有一个带有长描述的 fasta 文件（下面提到了第一个序列）。我需要选择特定的描述字段。当我使用以下代码时；整个描述进入字符串。

是否有任何简单的方法可以将描述字段（使用 biopython 库）放入数组并选择特定字段，而无需将描述放入字符串并吐出字符串？

代码输出

fasta 文件中的序列之一。

2011-09-16T07:20:31.580

0 投票

4 回答

12038 浏览

python - 使用生成器 ( python ) 解析 fasta 文件

我正在尝试解析一个大型 fasta 文件，但遇到内存不足错误。一些改进数据处理的建议将不胜感激。目前程序正确打印出名称，但部分通过文件我得到一个 MemoryError

这是生成器

这是调用者存根，在这部分工作后将添加更多内容

对于那些不熟悉 fasta 格式的人，这里是一个示例

每个条目都以“>”开头，说明名称等，然后接下来的 N 行是数据。除了下一行开头有一个“>”之外，没有定义的数据结尾。

python file parsing fasta

2011-10-04T22:57:06.213

0 投票

2 回答

2508 浏览

r - 遍历 FASTA 条目并重命名重复项

我有一个包含大量条目的 FASTA 文件。尽管所有的 DNA 序列都不同，但一些 FASTA 名称是相同的。如果一个名称有多个副本，我想附加一个数字，以便它们成为唯一的名称。例如：

会成为：

谢谢。

更新。因为我打算在 R 中使用它，所以我将 fasta 序列导入到 R 中，并将其作为数据框 df。然后，我可以使用以下行根据需要重命名：

受这篇文章启发的代码

r bioinformatics fasta

2011-10-19T01:16:44.487

0 投票

1 回答

1138 浏览

wolfram-mathematica - DNA序列的混沌游戏

我已经尝试过使用mathematica 代码来制作这个地址中发布的DNA 序列的混乱游戏：http: //facstaff.unca.edu/mcmcclur/blog/GeneCGR.html

就像这样：

我拥有的fasta序列只是一个像AACCTTTGATCAAA这样的字母序列，要生成的图形是这样的：

在此处输入图像描述

该代码适用于小序列，但是当我想要放置一个巨大的序列时，例如几乎 40Mb 的染色体，该程序需要很多时间并且只显示一个黑色方块，因此无法分析。是否可以改进上述代码，使其显示的正方形更大？顺便说一下，正方形必须只是正方形单位。提前感谢您的帮助

wolfram-mathematica dna-sequence fasta chaos

2011-11-04T12:10:34.367

0 投票

2 回答

245 浏览

parsing - 并行解析文件

我正在考虑一种并行解析fasta文件的方法。对于那些不知道 fasta-format 的人，举个例子：

因此，以“>”开头的行是标题行，其中包含标识符后面的序列的标识符。

我想您将整个文件加载到内存中，但在此之后我无法找到处理这些数据的方法。

问题是：线程不能从任意位置开始，因为它们可以通过这种方式剪切序列。

当行相互依赖时，有人有并行解析文件的经验吗？任何想法都值得赞赏。

parsing concurrency parallel-processing bioinformatics fasta

2011-11-24T14:53:59.233

0 投票

2 回答

3372 浏览

bioinformatics - FASTA算法说明

我试图了解 FASTA 算法在数据库中搜索查询序列的相似序列时的基本步骤。这些是算法的步骤：

识别 I 和 J 之间的常见 k 词
用 k 词匹配对对角线进行评分，确定 10 个最佳对角线
使用替换分数矩阵重新对初始区域进行评分
使用间隙连接初始区域，对间隙进行惩罚
执行动态规划以找到最终对齐

我对使用 PAM250 分数矩阵的第 3 步和第 4 步以及如何“使用间隙加入”感到困惑。

有人可以“尽可能具体地”为我解释这两个步骤吗？谢谢

bioinformatics fasta

2011-12-03T08:47:53.483

0 投票

3 回答

1478 浏览

我正在编写一些需要读取fasta 文件的代码，所以我的部分代码（包括在下面）是一个 fasta 解析器。由于单个序列可以跨越 fasta 格式的多行，因此我需要将从文件中读取的多个连续行连接成一个字符串。我这样做，通过在读取每一行后重新分配字符串缓冲区，使其成为序列的当前长度加上读入的行的长度。我做了一些其他的事情，比如剥离空白等。一切顺利第一个序列，但 fasta 文件可以包含多个序列。同样，我有一个动态结构数组，其中包含两个字符串（标题和实际序列），即“char *”。同样，当我遇到一个新标题（由以“>”开头的行引入）时，我增加了序列的数量，并重新分配了序列列表缓冲区。realloc 段错误为第二个序列分配空间

对于我的生活，我不明白为什么。我已经通过 gdb 运行它，一切似乎都在工作（即一切都已初始化，值看起来很正常）......这是代码：

c realloc fasta

2012-01-23T14:26:30.437

0 投票

1 回答

7597 浏览

r - 如何使用 R 从多个 FASTA 文件中读取？

我有以下问题：我有 10 个不同的 FASTA 文件，每个文件中有数千个序列。我想从每个 fasta 文件中读取所有序列，然后（使用粘贴）创建一个包含所有序列的大文件。

我的问题如下：如何同时读取不同的文件？

我试过了：

接着

但它不能正常工作。我也尝试了命令 read.fasta 但它给了我一个奇怪的输出（不是所有的序列）

非常感谢您的帮助，将不胜感激！

法比奥

PS。我一周前才开始使用 R ......所以请耐心等待，即使这是一个愚蠢的问题！

r fasta

2012-02-17T12:51:01.023

0 投票

1 回答

2211 浏览

python - 在 Python 中从 FASTA 制作 Blast 数据库

我怎样才能做到这一点？我使用 Biopython 并且已经看过手册。当然，我可以在独立的 NCBI BLAST+ 中使用“makeblastdb”从 FASTA 制作blastdb，但我想在一个程序中完成整个过程。

似乎有两种可能的解决方案。

找到执行这项工作的功能。

我找不到这个。我已经度过了一整天。
在 python 中运行“makeblastdb”。

我在我的 python shell 中输入 os.system("C:\blast-2.2.25+\bin\makeblastdb.exe") ，但我无法提供任何参数。

我该如何解决这个问题？谢谢你的帮助。

python biopython fasta blast

2012-02-18T15:38:22.857

0 投票

3 回答

7432 浏览

python - 将 FASTA 文件中的多个序列添加到 python 中的列表中

我正在尝试用多个序列组织文件。在这样做时，我试图将名称添加到列表中，并将序列添加到与名称列表平行的单独列表中。我想出了如何将名称添加到列表中，但我不知道如何将其后面的序列添加到单独的列表中。我尝试将序列行附加到一个空字符串中，但它将所有序列的所有行附加到一个字符串中。

所有名称都以“>”开头

如何将序列作为一组字符串添加到列表中？

输入文件看起来像这样

在此处输入图像描述

python list append sequence fasta

2012-03-04T18:39:00.813

问题标签 [fasta]

python - 使用 biopython 解析 Fasta 文件描述

python - 使用生成器 ( python ) 解析 fasta 文件

r - 遍历 FASTA 条目并重命名重复项

wolfram-mathematica - DNA序列的混沌游戏

parsing - 并行解析文件

bioinformatics - FASTA算法说明

c - 从文件崩溃中读取时使用 realloc 扩展缓冲区

r - 如何使用 R 从多个 FASTA 文件中读取？

python - 在 Python 中从 FASTA 制作 Blast 数据库

python - 将 FASTA 文件中的多个序列添加到 python 中的列表中

问题标签 [fasta]

Reference