问题标签 [bioinformatics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
string - “fasta 文件中序列的平均长度”:你能改进这个 Erlang 代码吗?
我正在尝试使用Erlang获得fasta 序列的平均长度。fasta 文件看起来像这样
我尝试使用以下Erlang代码回答这个问题:
编译/执行:
此代码似乎适用于小型 fasta 文件,但解析较大的文件(>100Mo)需要数小时。为什么 ?我是 Erlang 新手,你能改进这段代码吗?
clojure - 改进用于迭代文本解析的 clojure 惰性序列
我正在编写这个编码挑战的 Clojure 实现,试图找到 Fasta 格式的序列记录的平均长度:
有关更多背景信息,请参阅有关Erlang 解决方案的相关 StackOverflow 帖子。
我的初学者 Clojure 尝试使用lazy-seq 尝试一次读取文件一条记录,以便将其扩展到大文件。然而,它相当消耗内存并且速度很慢,所以我怀疑它没有以最佳方式实现。这是一个使用BioJava库来抽象解析记录的解决方案:
以及没有外部库的等效方法:
当前的实现在一个大文件上需要 44 秒,而 Python 实现需要 7 秒。您能否就加快代码速度并使其更直观提供任何建议?使用lazy-seq 是否按预期正确地逐条解析文件记录?
java - 学习 JBoss 流口水:我的模型应该是什么
我正在学习JBoss Drools,并且正在使用来自 hapmap 项目的遗传学数据:(http://hapmap.ncbi.nlm.nih.gov/genotypes/latest/forward/non-redundant/)。该目录中的每个文件都是一个表格,顶部是个体,左侧是基因组上的位置,以及每个个体/位置观察到的突变。
在这里,我想使用 Drools 在文件中找到一些潜在的错误(例如,孩子没有父母的任何突变)。
1)我想在 Drools 中加载这些数据。这可能是大量数据(例如 genotypes_chr2_YRI_r27_nr.b36_fwd.txt.gz 是 20Mo gzipped) 这些数据会存储在内存中吗?还是 Drools 将其存储在某个地方?还是我应该使用持久性系统?
2)关于型号:
我正在考虑将以下类放入StatefulKnowledgeSession:
或者 ObservedMutation 应该是:
谢谢你的建议
皮埃尔
更新:我的第一次测试:http://plindenbaum.blogspot.com/2010/07/rules-engine-for-bioinformatics-playing.html
translation - Unicode 字符串上的快速序列对齐
我想运行类似 BLAST 算法的东西来查询一个大型的 unicode 字符串数据库。大多数比对软件(如 BLAST)都需要核苷酸或蛋白质字符串作为输入。但我的输入可能包含任何 Unicode 字符。有人知道可以让我这样做的软件吗?评分矩阵可能只是单位矩阵(没有部分匹配。)
我尝试过 Needleman-Wunsch 和 Smith Waterman,但就我的目的而言,它们太慢了。我需要查询一个大型数据库,就像在 BLAST 中一样。
谢谢!
computer-science - 对于计算机科学家来说,最好的生物信息学书籍是什么?
我是一名对生物信息学研究感兴趣的CS研究生。我对生物学没有很好的经验。对于计算机科学家来说,最好的生物信息学书籍是什么?
perl - 在 Perl 中需要峰值信号检测方面的帮助
大家好,我从酵母菌落板的图像中获得了一些强度值。我需要能够从强度值中找到峰值。下面是一个示例图像,显示了绘制时值的外观。
一些值的示例
这些值在 75.4 和 75.3 处显示了两个峰值,您可以看到值先增大后减小。变化并不总是一样的。
强度值图
http://lh4.ggpht.com/_aEDyS6ECO8s/THKTLgDPhaI/AAAAAAAAAio/HQW7Ut-HBhA/s400/peaks.png来自研究我正在考虑做的一件事是将每个组(即山脉)存储在哈希中,然后查找组中的最大值。一个如果我看到的问题是如何确定每个组的边界。
这是我到目前为止的代码链接:http: //paste-it.net/public/y485822/
这是完整数据集的链接:http: //paste-it.net/public/ub121b4/
我正在用 Perl 编写我的代码。任何帮助将不胜感激。谢谢
ruby-on-rails - 您如何将 Ruby on Rails 用于科学(如果适用)?
我们从事系统生物学研究。我们更喜欢使用现有的数据集,因为收集新的生物数据很昂贵。因此,我们编写的许多脚本只不过是将一个数据集转换为另一个数据集。
最终,我们将我们的结果放到网上——越来越多的期刊需要这种东西。
因此,尝试在我的项目中使用 Rails 对我来说并不是很大的飞跃。我可以设置易于重现的实验,通过数据库表逐步转换数据(例如使用 rake),并使用诸如flotomatic和 gnuplot 之类的 gem 显示结果。如果我需要快速运行的东西,我什至可以使用Rice在 C++ 中编写自定义 gem ,或者使用starling和workling进行并行化。
最终,我开始怀疑是否有其他人在使用 Rails 进行生物信息学或一般科学。
我想,“如果我是一个科学研究 Rails 的宝石,我会怎么做?”
这样的宝石会有哪些额外的功能?也许是迁移适应到 rake-able 管道?也许更高级的图形功能?内置后台作业?
cluster-analysis - 如何可视化基因网络和基因簇?
我正在处理生物数据——即基因组。例如:
对于每对基因,geneX
我geneY
有一个分数来说明这两个基因有多相似(实际上,我有两个分数,因为我使用了“定向”的 BLAST:我首先搜索geneX
所有其他基因,然后搜索所有geneY
其他基因,所以我有两个geneX--geneY
分数,但我想我可以取两者中较低的分数,或者平均值)。
所以,假设我对每对基因只有一个分数。我的数据可以看成一个无向图:
并回忆每条边都有一个附加的分数。
现在,我想做的是:
以交互方式可视化我的数据:能够单击基因节点并打开附加到它们的链接,仅显示高于/低于某个阈值的边缘,控制网络如何“传播”等。
将相似的组聚集在一起,即具有相似基因的组。
关于我该怎么做的任何想法?我想这是基本的集群,我会很感激任何关于包/软件的提示,这些提示可以在这里提供任何帮助。
谢谢你。
bioinformatics - 以编程方式获取 blastn 数据库
有没有办法以编程方式获取“选择搜索集”框中列出的数据库?也许是 XML 格式?(使用的编程语言无关紧要)
bash - 使用 awk 从两列值创建两个数组,求差值和差值,并输出数据
我有一个包含以下字段的文件(以及右侧的示例值):
这是该文件的缩短版本:
我需要总结外显子开始和结束的差异,例如:
区别:
总和(hg18.ensGene.exonLenSum):
我希望输出具有以下字段:
像这样:
我想对输入文件中的所有行使用一个 awk 脚本来执行此操作。我怎样才能做到这一点?这对于计算外显子长度很有用,例如 RPMK(每千碱基外显子模型每百万映射读数的读数)计算。