问题标签 [fasta]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 biopython 解析 Fasta 文件描述
我有一个带有长描述的 fasta 文件(下面提到了第一个序列)。我需要选择特定的描述字段。当我使用以下代码时;整个描述进入字符串。
是否有任何简单的方法可以将描述字段(使用 biopython 库)放入数组并选择特定字段,而无需将描述放入字符串并吐出字符串?
代码输出
fasta 文件中的序列之一。
python - 使用生成器 ( python ) 解析 fasta 文件
我正在尝试解析一个大型 fasta 文件,但遇到内存不足错误。一些改进数据处理的建议将不胜感激。目前程序正确打印出名称,但部分通过文件我得到一个 MemoryError
这是生成器
这是调用者存根,在这部分工作后将添加更多内容
对于那些不熟悉 fasta 格式的人,这里是一个示例
每个条目都以“>”开头,说明名称等,然后接下来的 N 行是数据。除了下一行开头有一个“>”之外,没有定义的数据结尾。
r - 遍历 FASTA 条目并重命名重复项
我有一个包含大量条目的 FASTA 文件。尽管所有的 DNA 序列都不同,但一些 FASTA 名称是相同的。如果一个名称有多个副本,我想附加一个数字,以便它们成为唯一的名称。例如:
会成为:
谢谢。
更新。因为我打算在 R 中使用它,所以我将 fasta 序列导入到 R 中,并将其作为数据框 df。然后,我可以使用以下行根据需要重命名:
受这篇文章启发的代码
wolfram-mathematica - DNA序列的混沌游戏
我已经尝试过使用mathematica 代码来制作这个地址中发布的DNA 序列的混乱游戏:http: //facstaff.unca.edu/mcmcclur/blog/GeneCGR.html
就像这样:
我拥有的fasta序列只是一个像AACCTTTGATCAAA这样的字母序列,要生成的图形是这样的:
该代码适用于小序列,但是当我想要放置一个巨大的序列时,例如几乎 40Mb 的染色体,该程序需要很多时间并且只显示一个黑色方块,因此无法分析。是否可以改进上述代码,使其显示的正方形更大?顺便说一下,正方形必须只是正方形单位。提前感谢您的帮助
parsing - 并行解析文件
我正在考虑一种并行解析fasta文件的方法。对于那些不知道 fasta-format 的人,举个例子:
因此,以“>”开头的行是标题行,其中包含标识符后面的序列的标识符。
我想您将整个文件加载到内存中,但在此之后我无法找到处理这些数据的方法。
问题是:线程不能从任意位置开始,因为它们可以通过这种方式剪切序列。
当行相互依赖时,有人有并行解析文件的经验吗?任何想法都值得赞赏。
bioinformatics - FASTA算法说明
我试图了解 FASTA 算法在数据库中搜索查询序列的相似序列时的基本步骤。这些是算法的步骤:
- 识别 I 和 J 之间的常见 k 词
- 用 k 词匹配对对角线进行评分,确定 10 个最佳对角线
- 使用替换分数矩阵重新对初始区域进行评分
- 使用间隙连接初始区域,对间隙进行惩罚
- 执行动态规划以找到最终对齐
我对使用 PAM250 分数矩阵的第 3 步和第 4 步以及如何“使用间隙加入”感到困惑。
有人可以“尽可能具体地”为我解释这两个步骤吗?谢谢
c - 从文件崩溃中读取时使用 realloc 扩展缓冲区
我正在编写一些需要读取fasta 文件的代码,所以我的部分代码(包括在下面)是一个 fasta 解析器。由于单个序列可以跨越 fasta 格式的多行,因此我需要将从文件中读取的多个连续行连接成一个字符串。我这样做,通过在读取每一行后重新分配字符串缓冲区,使其成为序列的当前长度加上读入的行的长度。我做了一些其他的事情,比如剥离空白等。一切顺利第一个序列,但 fasta 文件可以包含多个序列。同样,我有一个动态结构数组,其中包含两个字符串(标题和实际序列),即“char *”。同样,当我遇到一个新标题(由以“>”开头的行引入)时,我增加了序列的数量,并重新分配了序列列表缓冲区。realloc 段错误为第二个序列分配空间
对于我的生活,我不明白为什么。我已经通过 gdb 运行它,一切似乎都在工作(即一切都已初始化,值看起来很正常)......这是代码:
r - 如何使用 R 从多个 FASTA 文件中读取?
我有以下问题:我有 10 个不同的 FASTA 文件,每个文件中有数千个序列。我想从每个 fasta 文件中读取所有序列,然后(使用粘贴)创建一个包含所有序列的大文件。
我的问题如下:如何同时读取不同的文件?
我试过了:
接着
但它不能正常工作。我也尝试了命令 read.fasta 但它给了我一个奇怪的输出(不是所有的序列)
非常感谢您的帮助,将不胜感激!
法比奥
PS。我一周前才开始使用 R ......所以请耐心等待,即使这是一个愚蠢的问题!
python - 在 Python 中从 FASTA 制作 Blast 数据库
我怎样才能做到这一点?我使用 Biopython 并且已经看过手册。当然,我可以在独立的 NCBI BLAST+ 中使用“makeblastdb”从 FASTA 制作blastdb,但我想在一个程序中完成整个过程。
似乎有两种可能的解决方案。
- 找到执行这项工作的功能。
我找不到这个。我已经度过了一整天。
- 在 python 中运行“makeblastdb”。
我在我的 python shell 中输入 os.system("C:\blast-2.2.25+\bin\makeblastdb.exe") ,但我无法提供任何参数。
python - 将 FASTA 文件中的多个序列添加到 python 中的列表中
我正在尝试用多个序列组织文件。在这样做时,我试图将名称添加到列表中,并将序列添加到与名称列表平行的单独列表中。我想出了如何将名称添加到列表中,但我不知道如何将其后面的序列添加到单独的列表中。我尝试将序列行附加到一个空字符串中,但它将所有序列的所有行附加到一个字符串中。
所有名称都以“>”开头
如何将序列作为一组字符串添加到列表中?
输入文件看起来像这样