“bioinformatics”的相关标签问题

0 投票

4 回答

15862 浏览

r - 如何在 R 中执行基本的多序列比对？

（我试过在BioStars上问这个问题，但是对于文本挖掘的人认为有更好的解决方案的可能性很小，我也在这里重新发布）

我要完成的任务是对齐几个序列。

我没有要匹配的基本模式。我所知道的是，“真”模式的长度应该是“30”，并且我在随机点引入了缺失值的序列。

这是此类序列的示例，在左侧我们看到缺失值的真实位置，在右侧我们看到我们将能够观察到的序列。

我的目标是仅使用我在右列中获得的序列来重建左列（基于每个位置的许多字母相同的事实）

这是重现上述示例的示例代码：

我明白，如果我只有一个字符串和一个模式，我就可以使用

但是在我提出的情况下，我们正在处理许多序列以相互对齐（而不是将它们对齐到一个模式）。

在 R 中是否有已知的方法可以做到这一点？

2010-12-21T09:19:28.550

0 投票

3 回答

178 浏览

silverlight - Silverlight 生物信息学演示

我是一名初学 Silverlight 程序员，准备在医学研究公司面试。工作听起来很有趣，我想去那里。为了展示我的技能和兴趣，我想编写一个与该主题相关的程序。你有什么建议？

第一个想法：输入数据的简单统计分析，图像集合（例如，找到 HD DNA 图像并将其放入 Silverlight Deep Zoom），实验室库存程序..

silverlight bioinformatics demo

2010-12-29T17:41:06.787

0 投票

3 回答

181 浏览

ruby - 在 Ruby 中处理染色体数据

假设我有一个正在用 Ruby 处理的染色体数据文件，

我将每一行粘贴到数组的哈希中，我的键取自第 2 列 Segment_ID，我的值取自第 3 列 Read_Depth，给了我

引物是由上述数据中的两个连续行组成的小段，位于每个常规段之前和之后。常规段的 Segment_ID 具有非空字符串值，并且长度不同，而第二列中具有空字符串的行是引物的一部分。引物片段的长度始终相同，为 2。如上所示，Base_ID 的 1、2、5、6、7、8、12、13 是引物的一部分。总共有四个引物片段存在于上述数据中。

我想做的是，在第 2 列 Segment_ID 中遇到带有空字符串的行时，将 READ_DEPTH 添加到我的哈希中的适当元素中。例如，我从上面想要的结果看起来像

ruby string hash bioinformatics

2011-01-03T22:08:17.863

0 投票

1 回答

228 浏览

java - 是否有类似于 PyCogent 的库，但在 Java（或 Scala）中？

我正在写一个生物进化模拟器。目前，我所有的代码都是用 Python 编写的。在大多数情况下，这很棒，并且一切都运行良好。然而，这个过程中有两个步骤需要很长时间，我想用 Scala 重写。

第一个问题领域是序列进化。想象一下，给你一个系统发育树，它与大量蛋白质相关联。每个分支的长度代表父子之间的进化距离。树的根以单个序列为种子，然后使用进化模型（例如http://en.wikipedia.org/wiki/Models_of_DNA_evolution）沿树结构进化序列；考虑到分支长度。PyCogent 需要很长时间来执行这一步，我相信一个合理的 Java/Scala 实现会明显更快。您是否知道任何实现此类功能的库。我想用 Scala 编写应用程序，因此，由于互操作性，任何 Java 库都足够了。

第二个问题领域是生成序列的比较。问题是，给定许多不同现存物种中蛋白质的一组序列，尝试使用该序列来重建与物种相关的系统发育树。这个问题本质上是计算要求高的，因为基本上必须在现存物种的所有序列之间进行成对比较。然而，在这里，我觉得 Java/Scala 实现的执行速度要比 Python 快得多，如果只是不幸地 Python 中的循环速度很慢的话。这部分我可以比序列进化部分更容易地从头开始编写，但如果存在一个好的库，我也愿意为它使用一个库。

谢谢，罗伯

java scala bioinformatics

2011-01-17T22:25:56.547

0 投票

1 回答

1018 浏览

r - 关于 Volacano Plot 的问题

我试图用一些真实数据制作火山图，使用 log2(ratio) 与 Z 值显着性。然而，与“正常”火山图相反，点的分散太少了，我得到了一个尖锐的“V”形图。

我知道，如果相同的 X 值具有不同的 Y 值，则会发生分散。但是我在这里缺少什么？

情节看起来很奇怪：http: //img402.imageshack.us/i/volcanoi.jpg/

数据（比率）可从 pastebin 或附件中获得：http: //pastebin.com/m2Jss3qF

R代码：我在这里做错了吗？

r statistics bioinformatics

2011-01-20T02:45:53.313

0 投票

2 回答

455 浏览

bioinformatics - 如何在给定序列中找到稀有密码子？

编写程序以找出序列列表中的稀有密码子背后的概念是什么？我不是在向任何人询问编码。只是想知道这个概念。

bioinformatics

2011-01-24T12:15:09.927

0 投票

4 回答

7932 浏览

python - python中大文件的高效文件缓冲和扫描方法

我遇到的问题的描述有点复杂，我会在提供更完整的信息方面犯错。对于不耐烦的人，这是我可以总结的最简短的方式：

在抛出换行符的同时，将文本文件拆分为大小为 N（绑定 N，例如 36）的所有（重叠）子字符串的最快（最少执行时间）方法是什么。

我正在编写一个模块来解析基于 FASTA ascii 的基因组格式的文件。这些文件包含所谓的“hg18”人类参考基因组，如果您愿意，您可以从UCSC 基因组浏览器下载（加油！）。

您会注意到，基因组文件由 chr[1..22].fa 和 chr[XY].fa 以及一组在本模块中未使用的其他小文件组成。

已经存在几个用于解析 FASTA 文件的模块，例如 BioPython 的 SeqIO。（抱歉，我会发布一个链接，但我还没有这样做的要点。）不幸的是，我能够找到的每个模块都没有执行我想要执行的特定操作。

我的模块需要将基因组数据（例如，'CAGTACGTCAGACTATACGGAGCTA' 可能是一条线）拆分为每个重叠的 N 长度子字符串。让我举一个例子，使用一个非常小的文件（实际的染色体文件长度在 355 到 2000 万个字符之间）并且 N=8

从我能想到的方法中，我发现的功能绝对是最好的：

这可行，但不幸的是，以这种方式解析人类基因组仍然需要大约 1.5 小时（见下面的注释）。也许这是我将使用这种方法看到的最好的方法（可能需要进行完整的代码重构，但我想避免它，因为这种方法在代码的其他领域有一些非常具体的优势），但我我想我会把它交给社区。

谢谢！

请注意，这一次包括很多额外的计算，例如计算反向链读取和对大约 5G 大小的哈希进行哈希表查找。

回答后结论：事实证明，与程序的其余部分相比，使用 fileobj.read() 然后操作生成的字符串（string.replace() 等）花费的时间和内存相对较少，所以我使用了方法。感谢大家！

python performance io bioinformatics fasta

2011-01-26T03:55:20.297

0 投票

1 回答

371 浏览

java - 生物信息学 - 需要获取 ATOMS 序列

我在 BioJava 中搜索一种方法以从 PDB 文件中获取 Atom 序列。我观看了 BioJava API，但对于 getAtomSequence()，它捕获了氨基酸。我在 BioJava 中尝试了其他几种方法，但没有达到我想要的效果。

有人可以在这里帮助我吗？

谢谢

java bioinformatics biojava

2011-01-27T16:57:04.240

0 投票

3 回答

491 浏览

perl - 如何在两个不同的文件中找到两个子字符串的计数和位置？

从给定的两个序列中，我需要检查每三个密码子，如果更改与以下列表中的相同，那么我必须检查更改的位置和更改的密码子并计算它们的出现次数。

例如：

我需要得到的输出是

注意：CAU->CAC不考虑，因为它不在以下列表中。LIST:-> 还应考虑变化的方向。

我写到现在的代码是：

perl bioinformatics

2011-02-03T06:12:23.417

0 投票

3 回答

3819 浏览

perl - perl 脚本在 multifasta 文件中搜索主题并打印完整序列以及标题行

我可以在多 fasta 文件中搜索主题并打印包含主题的行....但我需要打印所有序列以及包含 fasta 序列的主题的标题行。请帮助我，我只是 perl 的初学者

perl bioinformatics

2011-02-08T05:48:52.607

问题标签 [bioinformatics]

Reference