问题标签 [bioinformatics]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
15862 浏览

r - 如何在 R 中执行基本的多序列比对?

(我试过在BioStars上问这个问题,但是对于文本挖掘的人认为有更好的解决方案的可能性很小,我也在这里重新发布)

我要完成的任务是对齐几个序列。

我没有要匹配的基本模式。我所知道的是,“真”模式的长度应该是“30”,并且我在随机点引入了缺失值的序列。

这是此类序列的示例,在左侧我们看到缺失值的真实位置,在右侧我们看到我们将能够观察到的序列。

我的目标是仅使用我在右列中获得的序列来重建左列(基于每个位置的许多字母相同的事实)

这是重现上述示例的示例代码:

我明白,如果我只有一个字符串和一个模式,我就可以使用

但是在我提出的情况下,我们正在处理许多序列以相互对齐(而不是将它们对齐到一个模式)。

在 R 中是否有已知的方法可以做到这一点?

0 投票
3 回答
178 浏览

silverlight - Silverlight 生物信息学演示

我是一名初学 Silverlight 程序员,准备在医学研究公司面试。工作听起来很有趣,我想去那里。为了展示我的技能和兴趣,我想编写一个与该主题相关的程序。你有什么建议?

第一个想法:输入数据的简单统计分析,图像集合(例如,找到 HD DNA 图像并将其放入 Silverlight Deep Zoom),实验室库存程序..

0 投票
3 回答
181 浏览

ruby - 在 Ruby 中处理染色体数据

假设我有一个正在用 Ruby 处理的染色体数据文件,

我将每一行粘贴到数组的哈希中,我的键取自第 2 列 Segment_ID,我的值取自第 3 列 Read_Depth,给了我

引物是由上述数据中的两个连续行组成的小段,位于每个常规段之前和之后。常规段的 Segment_ID 具有非空字符串值,并且长度不同,而第二列中具有空字符串的行是引物的一部分。引物片段的长度始终相同,为 2。如上所示,Base_ID 的 1、2、5、6、7、8、12、13 是引物的一部分。总共有四个引物片段存在于上述数据中。

我想做的是,在第 2 列 Segment_ID 中遇到带有空字符串的行时,将 READ_DEPTH 添加到我的哈希中的适当元素中。例如,我从上面想要的结果看起来像

0 投票
1 回答
228 浏览

java - 是否有类似于 PyCogent 的库,但在 Java(或 Scala)中?

我正在写一个生物进化模拟器。目前,我所有的代码都是用 Python 编写的。在大多数情况下,这很棒,并且一切都运行良好。然而,这个过程中有两个步骤需要很长时间,我想用 Scala 重写。

第一个问题领域是序列进化。想象一下,给你一个系统发育树,它与大量蛋白质相关联。每个分支的长度代表父子之间的进化距离。树的根以单个序列为种子,然后使用进化模型(例如http://en.wikipedia.org/wiki/Models_of_DNA_evolution)沿树结构进化序列;考虑到分支长度。PyCogent 需要很长时间来执行这一步,我相信一个合理的 Java/Scala 实现会明显更快。您是否知道任何实现此类功能的库。我想用 Scala 编写应用程序,因此,由于互操作性,任何 Java 库都足够了。

第二个问题领域是生成序列的比较。问题是,给定许多不同现存物种中蛋白质的一组序列,尝试使用该序列来重建与物种相关的系统发育树。这个问题本质上是计算要求高的,因为基本上必须在现存物种的所有序列之间进行成对比较。然而,在这里,我觉得 Java/Scala 实现的执行速度要比 Python 快得多,如果只是不幸地 Python 中的循环速度很慢的话。这部分我可以比序列进化部分更容易地从头开始编写,但如果存在一个好的库,我也愿意为它使用一个库。

谢谢,罗伯

0 投票
1 回答
1018 浏览

r - 关于 Volacano Plot 的问题

我试图用一些真实数据制作火山图,使用 log2(ratio) 与 Z 值显着性。然而,与“正常”火山图相反,点的分散太少了,我得到了一个尖锐的“V”形图。

我知道,如果相同的 X 值具有不同的 Y 值,则会发生分散。但是我在这里缺少什么?

情节看起来很奇怪:http: //img402.imageshack.us/i/volcanoi.jpg/

数据(比率)可从 pastebin 或附件中获得:http: //pastebin.com/m2Jss3qF

R代码:我在这里做错了吗?

0 投票
2 回答
455 浏览

bioinformatics - 如何在给定序列中找到稀有密码子?

编写程序以找出序列列表中的稀有密码子背后的概念是什么?我不是在向任何人询问编码。只是想知道这个概念。

0 投票
4 回答
7932 浏览

python - python中大文件的高效文件缓冲和扫描方法

我遇到的问题的描述有点复杂,我会在提供更完整的信息方面犯错。对于不耐烦的人,这是我可以总结的最简短的方式:

在抛出换行符的同时,将文本文件拆分为大小为 N(绑定 N,例如 36)的所有(重叠)子字符串的最快(最少执行时间)方法是什么。

我正在编写一个模块来解析基于 FASTA ascii 的基因组格式的文件。这些文件包含所谓的“hg18”人类参考基因组,如果您愿意,您可以从UCSC 基因组浏览器下载(加油!)。

您会注意到,基因组文件由 chr[1..22].fa 和 chr[XY].fa 以及一组在本模块中未使用的其他小文件组成。

已经存在几个用于解析 FASTA 文件的模块,例如 BioPython 的 SeqIO。(抱歉,我会发布一个链接,但我还没有这样做的要点。)不幸的是,我能够找到的每个模块都没有执行我想要执行的特定操作。

我的模块需要将基因组数据(例如,'CAGTACGTCAGACTATACGGAGCTA' 可能是一条线)拆分为每个重叠的 N 长度子字符串。让我举一个例子,使用一个非常小的文件(实际的染色体文件长度在 355 到 2000 万个字符之间)并且 N=8

从我能想到的方法中,我发现的功能绝对是最好的:

这可行,但不幸的是,以这种方式解析人类基因组仍然需要大约 1.5 小时(见下面的注释)。也许这是我将使用这种方法看到的最好的方法(可能需要进行完整的代码重构,但我想避免它,因为这种方法在代码的其他领域有一些非常具体的优势),但我我想我会把它交给社区。

谢谢!

  • 请注意,这一次包括很多额外的计算,例如计算反向链读取和对大约 5G 大小的哈希进行哈希表查找。

回答后结论:事实证明,与程序的其余部分相比,使用 fileobj.read() 然后操作生成的字符串(string.replace() 等)花费的时间和内存相对较少,所以我使用了方法。感谢大家!

0 投票
1 回答
371 浏览

java - 生物信息学 - 需要获取 ATOMS 序列

我在 BioJava 中搜索一种方法以从 PDB 文件中获取 Atom 序列。我观看了 BioJava API,但对于 getAtomSequence(),它捕获了氨基酸。我在 BioJava 中尝试了其他几种方法,但没有达到我想要的效果。

有人可以在这里帮助我吗?

谢谢

0 投票
3 回答
491 浏览

perl - 如何在两个不同的文件中找到两个子字符串的计数和位置?

从给定的两个序列中,我需要检查每三个密码子,如果更改与以下列表中的相同,那么我必须检查更改的位置和更改的密码子并计算它们的出现次数。

例如:

我需要得到的输出是

注意:CAU->CAC不考虑,因为它不在以下列表中。LIST:-> 还应考虑变化的方向。

我写到现在的代码是:

0 投票
3 回答
3819 浏览

perl - perl 脚本在 multifasta 文件中搜索主题并打印完整序列以及标题行

我可以在多 fasta 文件中搜索主题并打印包含主题的行....但我需要打印所有序列以及包含 fasta 序列的主题的标题行。请帮助我,我只是 perl 的初学者