问题标签 [bioinformatics]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3718 问题

0 投票

2 回答

536 浏览

string - 根据常见的子模式对短的、同质的字符串 (DNA) 进行聚类并提取类的共识

任务：
将大量短 DNA 片段聚集在具有共同子序列模式的类中，并找到每个类的共有序列。

游泳池：约。300个序列片段
每个片段 8 - 20 个字母
4 个可能的字母：a,g,t,c
每个片段都分为三个区域：
1. 5个通用字母
2. g和c的8个或更多位置
3. 5个通用字母
  （作为正则表达式[gcta]{5}[gc]{8,}[gcta]{5}）

计划：
执行多重比对（即与ClustalW2）以查找在区域2 中共享共同序列及其共有序列的类。

问题：

我的碎片是否太短，是否有助于增加它们的大小？
区域 2 是否过于同质，只有两种允许的字母类型，无法在其序列中显示模式？
您可以为这项任务推荐哪些替代方法或工具？

此致，

西蒙

2009-10-02T12:50:26.867

0 投票

2 回答

429 浏览

python - BioPython：使用 Entrez.esummary/Entrez.read 跳过错误的 GID

对不起，奇怪的标题。

我正在使用 eSearch 和 eSummary 从

入藏号 --> gID --> TaxID

假设“accessions”是一个包含 20 个入藏号的列表（我一次做 20 个，因为这是 NCBI 允许的最大值）。

我愿意：

这给了我来自这 20 个入藏号的 20 个对应的 GID。

其次是：

这给了我这个错误，因为 gids 中的一个 GID 已从 NCBI 中删除：

我可以尝试：，除了：除了会跳过其他 19 个没问题的 GID。

我的问题是：

如何使用 Entrez.read 一次读取 20 条记录并跳过丢失的记录而不牺牲其他 20 条记录？我可以一次做一个，但这会非常慢（我有 300,000 个登录号，而 NCBI 只允许您每秒进行 3 次查询，但实际上它更像是每秒 1 次查询）。

python bioinformatics biopython

2009-10-06T04:15:15.040

0 投票

6 回答

3450 浏览

functional-programming - 哪些函数式编程语言具有生物信息学库？

哪些函数式编程语言具有易于获得的生物信息学库？

（不包括Ruby等多范式语言）

更新：也欢迎列出目前无法轻松访问生物信息学库的主要函数式编程语言。

functional-programming bioinformatics

2009-10-06T23:56:41.773

0 投票

3 回答

5373 浏览

perl - 如何从 Perl 中的 DNA 序列中提取起始密码子和结束密码子？

我在下面有一个代码，试图识别给定 DNA 序列的起始和结束密码子的位置。我们将起始密码子定义为ATG序列，将结束密码子定义为TGA、TAA、TAG序列。

我遇到的问题是下面的代码仅适用于前两个序列（DM208659 和 AF038953），但不适用于其余的。

我下面的方法有什么问题？

此代码可以从此处复制粘贴。

perl bioinformatics

2009-10-13T04:03:45.240

0 投票

5 回答

3753 浏览

python - 在python中为多列输出两行

我正在使用包含以下信息的输出列表：

我想将它写入一个 excel 文件，该文件将使用样本名称作为列的标题，然后是列中样本的值来格式化它。一些样本没有值，因此这些空格将为空白或没有数据符号。看起来像这样的东西（抱歉必须使用 >> 来表示列分离）：

任何帮助都会很棒。

python file format bioinformatics

2009-10-15T16:53:09.057

0 投票

6 回答

743 浏览

perl - 如何将其更改为“惯用的”Perl？

我开始深入研究 Perl，但是在编写“Perl-ly”代码而不是用 Perl 编写 C 时遇到了麻烦。如何更改以下代码以使用更多 Perl 习语，我应该如何学习这些习语？

只是对它在做什么的解释：此例程是对齐 DNA 或氨基酸序列的模块的一部分（如果您关心此类事情，请使用 Needelman-Wunch）。它创建了两个二维数组，一个用于存储两个序列中每个位置的分数，另一个用于跟踪路径，以便以后可以重新创建得分最高的对齐方式。它工作得很好，但我知道我做的事情不是很简洁明了。

编辑：这是为了分配。我完成了它，但想稍微清理一下我的代码。如果您有兴趣，可以在课程网站上找到有关实现该算法的详细信息。

perl bioinformatics

2009-10-23T16:22:58.640

0 投票

2 回答

8331 浏览

bioinformatics - 使用 BioPython 运行 BLAST 查询

我想

BLAST 几个序列
从每个查询中检索前 100 个左右的命中
汇集下载的序列
删除重复项

我如何在 BioPython 中做到这一点？

bioinformatics biopython sequences blast

2009-11-03T21:43:14.157

0 投票

2 回答

265 浏览

r - R统计包：包装GOFrame对象

我正在尝试生成 GOFrame 对象以在 R 中为不受支持的生物体生成基因本体映射（参见http://www.bioconductor.org/packages/release/bioc/vignettes/GOstats/inst/doc/GOstatsForUnsupportedOrganisms.pdf）。

但是，按照说明从字面上看对我没有帮助。这是我执行的代码（ubuntu koala 64 位上的 R 2.9.2）

但是，当我尝试将我的数据框映射到 goFrame 对象时，我得到了这个错误

我很确定 GOFrame 包装器在 AnnotationDBI 库中，所以我很困惑。任何帮助都非常感谢:-)

r statistics bioinformatics bioconductor

2009-11-12T12:49:05.650

0 投票

6 回答

2218 浏览

java - DNA序列的计算

你能告诉我如何使用 Levenshtein 算法通过 Java 计算 DNA 序列吗

java bioinformatics

2009-11-16T05:19:41.420

0 投票

2 回答

1147 浏览

customization - 自定义 BLAST 的输出？

我知道这是一个与 BLAST 和生物信息学相关的非常具体的问题，但这里有：

我正在尝试使用独立的 BLAST（我已经下载并测试了它在命令行上运行）来执行 DNA 序列比对（blastn）。我需要能够提供我自己的查询文件（fasta 格式）和我自己的数据库文件（也是 fasta 格式）。

关键是我想让程序只输出 2 个字段，而不是它通常输出的详细报告。我只希望输出对齐的最高分和 e 值。这个想法是，一旦我有了这个工作，我可以将它包装在我自己的控制程序中，并使用不同的查询序列自动运行它多次并记录分数和电子值。

我知道这是一个很长的镜头，但是有人知道我该如何去做吗？我的两个障碍是使用我自己的数据库文件和自定义输出。

customization bioinformatics

2009-11-22T08:29:40.187

1 2 3 4 5 6 7 8 9 10

问题标签 [bioinformatics]

Reference