问题标签 [bioinformatics]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
536 浏览

string - 根据常见的子模式对短的、同质的字符串 (DNA) 进行聚类并提取类的共识

任务:
将大量短 DNA 片段聚集在具有共同子序列模式的类中,并找到每个类的共有序列。

  • 游泳池:约。300个序列片段
  • 每个片段 8 - 20 个字母
  • 4 个可能的字母:a,g,t,c
  • 每个片段都分为三个区域:
    1. 5个通用字母
    2. g和c的8个或更多位置
    3. 5个通用字母
      (作为正则表达式[gcta]{5}[gc]{8,}[gcta]{5}

计划:
执行多重比对(即与ClustalW2)以查找在区域2 中共享共同序列及其共有序列的类。

问题:

  1. 我的碎片是否太短,是否有助于增加它们的大小?
  2. 区域 2 是否过于同质,只有两种允许的字母类型,无法在其序列中显示模式?
  3. 您可以为这项任务推荐哪些替代方法或工具?

此致,

西蒙

0 投票
2 回答
429 浏览

python - BioPython:使用 Entrez.esummary/Entrez.read 跳过错误的 GID

对不起,奇怪的标题。

我正在使用 eSearch 和 eSummary 从

入藏号 --> gID --> TaxID

假设“accessions”是一个包含 20 个入藏号的列表(我一次做 20 个,因为这是 NCBI 允许的最大值)。

我愿意:

这给了我来自这 20 个入藏号的 20 个对应的 GID。

其次是:

这给了我这个错误,因为 gids 中的一个 GID 已从 NCBI 中删除:

我可以尝试:,除了:除了会跳过其他 19 个没问题的 GID。

我的问题是:

如何使用 Entrez.read 一次读取 20 条记录并跳过丢失的记录而不牺牲其他 20 条记录?我可以一次做一个,但这会非常慢(我有 300,000 个登录号,而 NCBI 只允许您每秒进行 3 次查询,但实际上它更像是每秒 1 次查询)。

0 投票
6 回答
3450 浏览

functional-programming - 哪些函数式编程语言具有生物信息学库?

哪些函数式编程语言具有易于获得的生物信息学库?

(不包括Ruby等多范式语言)

更新:也欢迎列出目前无法轻松访问生物信息学库的主要函数式编程语言。

0 投票
3 回答
5373 浏览

perl - 如何从 Perl 中的 DNA 序列中提取起始密码子和结束密码子?

我在下面有一个代码,试图识别给定 DNA 序列的起始和结束密码子的位置。我们将起始密码子定义为ATG序列,将结束密码子定义为TGA、TAA、TAG序列。

我遇到的问题是下面的代码仅适用于前两个序列(DM208659 和 AF038953),但不适用于其余的。

我下面的方法有什么问题?

此代码可以从此处复制粘贴。

0 投票
5 回答
3753 浏览

python - 在python中为多列输出两行

我正在使用包含以下信息的输出列表:

我想将它写入一个 excel 文件,该文件将使用样本名称作为列的标题,然后是列中样本的值来格式化它。一些样本没有值,因此这些空格将为空白或没有数据符号。看起来像这样的东西(抱歉必须使用 >> 来表示列分离):

任何帮助都会很棒。

0 投票
6 回答
743 浏览

perl - 如何将其更改为“惯用的”Perl?

我开始深入研究 Perl,但是在编写“Perl-ly”代码而不是用 Perl 编写 C 时遇到了麻烦。如何更改以下代码以使用更多 Perl 习语,我应该如何学习这些习语?

只是对它在做什么的解释:此例程是对齐 DNA 或氨基酸序列的模块的一部分(如果您关心此类事情,请使用 Needelman-Wunch)。它创建了两个二维数组,一个用于存储两个序列中每个位置的分数,另一个用于跟踪路径,以便以后可以重新创建得分最高的对齐方式。它工作得很好,但我知道我做的事情不是很简洁明了。

编辑:这是为了分配。我完成了它,但想稍微清理一下我的代码。如果您有兴趣,可以在课程网站上找到有关实现该算法的详细信息。

0 投票
2 回答
8331 浏览

bioinformatics - 使用 BioPython 运行 BLAST 查询

我想

  1. BLAST 几个序列
  2. 从每个查询中检索前 100 个左右的命中
  3. 汇集下载的序列
  4. 删除重复项

我如何在 BioPython 中做到这一点?

0 投票
2 回答
265 浏览

r - R统计包:包装GOFrame对象

我正在尝试生成 GOFrame 对象以在 R 中为不受支持的生物体生成基因本体映射(参见http://www.bioconductor.org/packages/release/bioc/vignettes/GOstats/inst/doc/GOstatsForUnsupportedOrganisms.pdf)。

但是,按照说明从字面上看对我没有帮助。这是我执行的代码(ubuntu koala 64 位上的 R 2.9.2)

但是,当我尝试将我的数据框映射到 goFrame 对象时,我得到了这个错误

我很确定 GOFrame 包装器在 AnnotationDBI 库中,所以我很困惑。任何帮助都非常感谢:-)

0 投票
6 回答
2218 浏览

java - DNA序列的计算

你能告诉我如何使用 Levenshtein 算法通过 Java 计算 DNA 序列吗

0 投票
2 回答
1147 浏览

customization - 自定义 BLAST 的输出?

我知道这是一个与 BLAST 和生物信息学相关的非常具体的问题,但这里有:

我正在尝试使用独立的 BLAST(我已经下载并测试了它在命令行上运行)来执行 DNA 序列比对(blastn)。我需要能够提供我自己的查询文件(fasta 格式)和我自己的数据库文件(也是 fasta 格式)。

关键是我想让程序只输出 2 个字段,而不是它通常输出的详细报告。我希望输出对齐的最高分和 e 值。这个想法是,一旦我有了这个工作,我可以将它包装在我自己的控制程序中,并使用不同的查询序列自动运行它多次并记录分数和电子值。

我知道这是一个很长的镜头,但是有人知道我该如何去做吗?我的两个障碍是使用我自己的数据库文件和自定义输出。