“bioinformatics”的相关标签问题

0 投票

5 回答

1255 浏览

string - “fasta 文件中序列的平均长度”：你能改进这个 Erlang 代码吗？

我正在尝试使用Erlang获得fasta 序列的平均长度。fasta 文件看起来像这样

我尝试使用以下Erlang代码回答这个问题：

编译/执行：

此代码似乎适用于小型 fasta 文件，但解析较大的文件（>100Mo）需要数小时。为什么？我是 Erlang 新手，你能改进这段代码吗？

2010-07-21T06:43:23.857

0 投票

2 回答

1470 浏览

clojure - 改进用于迭代文本解析的 clojure 惰性序列

我正在编写这个编码挑战的 Clojure 实现，试图找到 Fasta 格式的序列记录的平均长度：

有关更多背景信息，请参阅有关Erlang 解决方案的相关 StackOverflow 帖子。

我的初学者 Clojure 尝试使用lazy-seq 尝试一次读取文件一条记录，以便将其扩展到大文件。然而，它相当消耗内存并且速度很慢，所以我怀疑它没有以最佳方式实现。这是一个使用BioJava库来抽象解析记录的解决方案：

以及没有外部库的等效方法：

当前的实现在一个大文件上需要 44 秒，而 Python 实现需要 7 秒。您能否就加快代码速度并使其更直观提供任何建议？使用lazy-seq 是否按预期正确地逐条解析文件记录？

clojure lazy-evaluation bioinformatics

2010-07-21T21:02:47.557

0 投票

2 回答

720 浏览

java - 学习 JBoss 流口水：我的模型应该是什么

我正在学习JBoss Drools，并且正在使用来自 hapmap 项目的遗传学数据：（http://hapmap.ncbi.nlm.nih.gov/genotypes/latest/forward/non-redundant/）。该目录中的每个文件都是一个表格，顶部是个体，左侧是基因组上的位置，以及每个个体/位置观察到的突变。

在这里，我想使用 Drools 在文件中找到一些潜在的错误（例如，孩子没有父母的任何突变）。

1）我想在 Drools 中加载这些数据。这可能是大量数据（例如 genotypes_chr2_YRI_r27_nr.b36_fwd.txt.gz 是 20Mo gzipped）这些数据会存储在内存中吗？还是 Drools 将其存储在某个地方？还是我应该使用持久性系统？

2）关于型号：

我正在考虑将以下类放入StatefulKnowledgeSession：

或者 ObservedMutation 应该是：

谢谢你的建议

皮埃尔

更新：我的第一次测试：http://plindenbaum.blogspot.com/2010/07/rules-engine-for-bioinformatics-playing.html

java model rules drools bioinformatics

2010-07-22T20:31:00.283

0 投票

3 回答

312 浏览

translation - Unicode 字符串上的快速序列对齐

我想运行类似 BLAST 算法的东西来查询一个大型的 unicode 字符串数据库。大多数比对软件（如 BLAST）都需要核苷酸或蛋白质字符串作为输入。但我的输入可能包含任何 Unicode 字符。有人知道可以让我这样做的软件吗？评分矩阵可能只是单位矩阵（没有部分匹配。）

我尝试过 Needleman-Wunsch 和 Smith Waterman，但就我的目的而言，它们太慢了。我需要查询一个大型数据库，就像在 BLAST 中一样。

谢谢！

translation alignment information-retrieval bioinformatics blast

2010-08-04T14:19:51.557

0 投票

4 回答

6065 浏览

computer-science - 对于计算机科学家来说，最好的生物信息学书籍是什么？

我是一名对生物信息学研究感兴趣的CS研究生。我对生物学没有很好的经验。对于计算机科学家来说，最好的生物信息学书籍是什么？

computer-science bioinformatics

2010-08-21T09:45:24.903

0 投票

3 回答

1070 浏览

perl - 在 Perl 中需要峰值信号检测方面的帮助

大家好，我从酵母菌落板的图像中获得了一些强度值。我需要能够从强度值中找到峰值。下面是一个示例图像，显示了绘制时值的外观。

一些值的示例

这些值在 75.4 和 75.3 处显示了两个峰值，您可以看到值先增大后减小。变化并不总是一样的。

强度值图

http://lh4.ggpht.com/_aEDyS6ECO8s/THKTLgDPhaI/AAAAAAAAAio/HQW7Ut-HBhA/s400/peaks.png来自研究

我正在考虑做的一件事是将每个组（即山脉）存储在哈希中，然后查找组中的最大值。一个如果我看到的问题是如何确定每个组的边界。

这是我到目前为止的代码链接：http: //paste-it.net/public/y485822/

这是完整数据集的链接：http: //paste-it.net/public/ub121b4/

我正在用 Perl 编写我的代码。任何帮助将不胜感激。谢谢

perl signal-processing bioinformatics

2010-08-23T15:44:32.763

0 投票

3 回答

1599 浏览

ruby-on-rails - 您如何将 Ruby on Rails 用于科学（如果适用）？

我们从事系统生物学研究。我们更喜欢使用现有的数据集，因为收集新的生物数据很昂贵。因此，我们编写的许多脚本只不过是将一个数据集转换为另一个数据集。

最终，我们将我们的结果放到网上——越来越多的期刊需要这种东西。

因此，尝试在我的项目中使用 Rails 对我来说并不是很大的飞跃。我可以设置易于重现的实验，通过数据库表逐步转换数据（例如使用 rake），并使用诸如flotomatic和 gnuplot 之类的 gem 显示结果。如果我需要快速运行的东西，我什至可以使用Rice在 C++ 中编写自定义 gem ，或者使用starling和workling进行并行化。

最终，我开始怀疑是否有其他人在使用 Rails 进行生物信息学或一般科学。

我想，“如果我是一个科学研究 Rails 的宝石，我会怎么做？”

这样的宝石会有哪些额外的功能？也许是迁移适应到 rake-able 管道？也许更高级的图形功能？内置后台作业？

ruby-on-rails bioinformatics

2010-08-25T21:53:00.873

0 投票

2 回答

251 浏览

cluster-analysis - 如何可视化基因网络和基因簇？

我正在处理生物数据——即基因组。例如：

对于每对基因，geneX我geneY有一个分数来说明这两个基因有多相似（实际上，我有两个分数，因为我使用了“定向”的 BLAST：我首先搜索geneX所有其他基因，然后搜索所有geneY其他基因，所以我有两个geneX--geneY分数，但我想我可以取两者中较低的分数，或者平均值）。

所以，假设我对每对基因只有一个分数。我的数据可以看成一个无向图：替代文字

并回忆每条边都有一个附加的分数。

现在，我想做的是：

以交互方式可视化我的数据：能够单击基因节点并打开附加到它们的链接，仅显示高于/低于某个阈值的边缘，控制网络如何“传播”等。
将相似的组聚集在一起，即具有相似基因的组。

关于我该怎么做的任何想法？我想这是基本的集群，我会很感激任何关于包/软件的提示，这些提示可以在这里提供任何帮助。

谢谢你。

cluster-analysis bioinformatics

2010-09-13T08:26:41.040

0 投票

4 回答

258 浏览

bioinformatics - 以编程方式获取 blastn 数据库

在Nucleotide BLAST 搜索页面中

有没有办法以编程方式获取“选择搜索集”框中列出的数据库？也许是 XML 格式？（使用的编程语言无关紧要）

bioinformatics blast

2010-09-14T18:16:20.927

0 投票

2 回答

1049 浏览

bash - 使用 awk 从两列值创建两个数组，求差值和差值，并输出数据

我有一个包含以下字段的文件（以及右侧的示例值）：

这是该文件的缩短版本：

我需要总结外显子开始和结束的差异，例如：

区别：

总和（hg18.ensGene.exonLenSum）：

我希望输出具有以下字段：

像这样：

我想对输入文件中的所有行使用一个 awk 脚本来执行此操作。我怎样才能做到这一点？这对于计算外显子长度很有用，例如 RPMK（每千碱基外显子模型每百万映射读数的读数）计算。

bash csv awk bioinformatics

2010-09-15T19:58:08.270

问题标签 [bioinformatics]

Reference