问题标签 [bioinformatics]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
1255 浏览

string - “fasta 文件中序列的平均长度”:你能改进这个 Erlang 代码吗?

我正在尝试使用Erlang获得fasta 序列的平均长度。fasta 文件看起来像这样

我尝试使用以下Erlang代码回答这个问题:

编译/执行

此代码似乎适用于小型 fasta 文件,但解析较大的文件(>100Mo)需要数小时。为什么 ?我是 Erlang 新手,你能改进这段代码吗?

0 投票
2 回答
1470 浏览

clojure - 改进用于迭代文本解析的 clojure 惰性序列

我正在编写这个编码挑战的 Clojure 实现,试图找到 Fasta 格式的序列记录的平均长度:

有关更多背景信息,请参阅有关Erlang 解决方案的相关 StackOverflow 帖子。

我的初学者 Clojure 尝试使用lazy-seq 尝试一次读取文件一条记录,以便将其扩展到大文件。然而,它相当消耗内存并且速度很慢,所以我怀疑它没有以最佳方式实现。这是一个使用BioJava库来抽象解析记录的解决方案:

以及没有外部库的等效方法:

当前的实现在一个大文件上需要 44 秒,而 Python 实现需要 7 秒。您能否就加快代码速度并使其更直观提供任何建议?使用lazy-seq 是否按预期正确地逐条解析文件记录?

0 投票
2 回答
720 浏览

java - 学习 JBoss 流口水:我的模型应该是什么

我正在学习JBoss Drools,并且正在使用来自 hapmap 项目的遗传学数据:(http://hapmap.ncbi.nlm.nih.gov/genotypes/latest/forward/non-redundant/)。该目录中的每个文件都是一个表格,顶部是个体,左侧是基因组上的位置,以及每个个体/位置观察到突变

在这里,我想使用 Drools 在文件中找到一些潜在的错误(例如,孩子没有父母的任何突变)。

1)我想在 Drools 中加载这些数据。这可能是大量数据(例如 genotypes_chr2_YRI_r27_nr.b36_fwd.txt.gz 是 20Mo gzipped) 这些数据会存储在内存中吗?还是 Drools 将其存储在某个地方?还是我应该使用持久性系统?

2)关于型号:

我正在考虑将以下类放入StatefulKnowledgeSession

或者 ObservedMutation 应该是:

谢谢你的建议

皮埃尔

更新:我的第一次测试:http://plindenbaum.blogspot.com/2010/07/rules-engine-for-bioinformatics-playing.html

0 投票
3 回答
312 浏览

translation - Unicode 字符串上的快速序列对齐

我想运行类似 BLAST 算法的东西来查询一个大型的 unicode 字符串数据库。大多数比对软件(如 BLAST)都需要核苷酸或蛋白质字符串作为输入。但我的输入可能包含任何 Unicode 字符。有人知道可以让我这样做的软件吗?评分矩阵可能只是单位矩阵(没有部分匹配。)

我尝试过 Needleman-Wunsch 和 Smith Waterman,但就我的目的而言,它们太慢了。我需要查询一个大型数据库,就像在 BLAST 中一样。

谢谢!

0 投票
4 回答
6065 浏览

computer-science - 对于计算机科学家来说,最好的生物信息学书籍是什么?

我是一名对生物信息学研究感兴趣的CS研究生。我对生物学没有很好的经验。对于计算机科学家来说,最好的生物信息学书籍是什么?

0 投票
3 回答
1070 浏览

perl - 在 Perl 中需要峰值信号检测方面的帮助

大家好,我从酵母菌落板的图像中获得了一些强度值。我需要能够从强度值中找到峰值。下面是一个示例图像,显示了绘制时值的外观。

一些值的示例

这些值在 75.4 和 75.3 处显示了两个峰值,您可以看到值先增大后减小。变化并不总是一样的。

强度值图

http://lh4.ggpht.com/_aEDyS6ECO8s/THKTLgDPhaI/AAAAAAAAAio/HQW7Ut-HBhA/s400/peaks.png来自研究

我正在考虑做的一件事是将每个组(即山脉)存储在哈希中,然后查找组中的最大值。一个如果我看到的问题是如何确定每个组的边界。

这是我到目前为止的代码链接:http: //paste-it.net/public/y485822/

这是完整数据集的链接:http: //paste-it.net/public/ub121b4/

我正在用 Perl 编写我的代码。任何帮助将不胜感激。谢谢

0 投票
3 回答
1599 浏览

ruby-on-rails - 您如何将 Ruby on Rails 用于科学(如果适用)?

我们从事系统生物学研究。我们更喜欢使用现有的数据集,因为收集新的生物数据很昂贵。因此,我们编写的许多脚本只不过是将一个数据集转换为另一个数据集。

最终,我们将我们的结果放到网上——越来越多的期刊需要这种东西。

因此,尝试在我的项目中使用 Rails 对我来说并不是很大的飞跃。我可以设置易于重现的实验,通过数据库表逐步转换数据(例如使用 rake),并使用诸如flotomatic和 gnuplot 之类的 gem 显示结果。如果我需要快速运行的东西,我什至可以使用Rice在 C++ 中编写自定义 gem ,或者使用starlingworkling进行并行化。

最终,我开始怀疑是否有其他人在使用 Rails 进行生物信息学或一般科学。

我想,“如果我是一个科学研究 Rails 的宝石,我会怎么做?”

这样的宝石会有哪些额外的功能?也许是迁移适应到 rake-able 管道?也许更高级的图形功能?内置后台作业?

0 投票
2 回答
251 浏览

cluster-analysis - 如何可视化基因网络和基因簇?

我正在处理生物数据——即基因组。例如:

对于每对基因,geneXgeneY有一个分数来说明这两个基因有多相似(实际上,我有两个分数,因为我使用了“定向”的 BLAST:我首先搜索geneX所有其他基因,然后搜索所有geneY其他基因,所以我有两个geneX--geneY分数,但我想我可以取两者中较低的分数,或者平均值)。

所以,假设我对每对基因只有一个分数。我的数据可以看成一个无向图: 替代文字

并回忆每条边都有一个附加的分数。

现在,我想做的是:

  1. 以交互方式可视化我的数据:能够单击基因节点并打开附加到它们的链接,仅显示高于/低于某个阈值的边缘,控制网络如何“传播”等。

  2. 将相似的组聚集在一起,即具有相似基因的组。

关于我该怎么做的任何想法?我想这是基本的集群,我会很感激任何关于包/软件的提示,这些提示可以在这里提供任何帮助。

谢谢你。

0 投票
4 回答
258 浏览

bioinformatics - 以编程方式获取 blastn 数据库

Nucleotide BLAST 搜索页面中

有没有办法以编程方式获取“选择搜索集”框中列出的数据库?也许是 XML 格式?(使用的编程语言无关紧要)

0 投票
2 回答
1049 浏览

bash - 使用 awk 从两列值创建两个数组,求差值和差值,并输出数据

我有一个包含以下字段的文件(以及右侧的示例值):

这是该文件的缩短版本:

我需要总结外显子开始和结束的差异,例如:

区别:

总和(hg18.ensGene.exonLenSum):

我希望输出具有以下字段:

像这样:

我想对输入文件中的所有行使用一个 awk 脚本来执行此操作。我怎样才能做到这一点?这对于计算外显子长度很有用,例如 RPMK(每千碱基外显子模型每百万映射读数的读数)计算。