问题标签 [bioinformatics]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
632 浏览

database - 如何使用信息增益对基因进行排名?

如何使用信息增益和卡方统计对微阵列数据进行基因排序?请用一个简单的例子来说明..

0 投票
1 回答
135 浏览

r - 用于质谱数据多重对齐的软件包

我正在寻找一个好的 R 包来对齐多个光谱。

谢谢。

0 投票
5 回答
2674 浏览

python - 在不创建序列文件的情况下运行 BLAST (bl2seq)

我有一个执行 BLAST 查询的脚本 (bl2seq)

该脚本的工作方式如下:

  1. 获取序列a,序列b
  2. 将序列 a 写入文件
  3. 将序列 b 写入 fileb
  4. 运行命令'bl2seq -i filea -j fileb -n blastn'
  5. 从 STDOUT 获取输出,解析
  6. 重复 2000 万次

bl2seq 程序不支持管道。有没有办法做到这一点并避免写入/读取硬盘?

我正在使用 Python 顺便说一句。

0 投票
3 回答
1511 浏览

python - 用于微阵列数据的稳健多阵列平均值的 python 脚本

我试过谷歌但没有运气。我已经看到一些对使用 python 完成的健壮多数组平均但没有代码的弱引用。我对重新发明轮子没那么感兴趣。关于 python 模块、脚本的任何建议....

如果我能找到一个很好的解释或算法示例,我会编写一个 python 实现来分享。

如果你不确定我在说什么,你可以看看这个,尽管这不是定义。 http://www.mathworks.com/access/helpdesk/help/toolbox/bioinfo/ref/gcrma.html

0 投票
1 回答
260 浏览

cluster-computing - Running BLAST through XGrid

Does anyone have any experience running BLAST with XGrid?

Googling reveals a tool called 'Xgrid BLAST' existed but not where to get.

0 投票
5 回答
6607 浏览

bioinformatics - 在源代码中编码 Blosum62

我正在尝试使用“Needleman -Wunsch”的“全局比对”算法来实现蛋白质成对序列比对。

我不清楚如何在我的源代码中包含“Blosum62 矩阵”来进行评分或填充二维矩阵?

我用谷歌搜索发现大多数人建议使用包含标准“Blosum62 矩阵”的平面文件。这是否意味着我需要从这个平面文件中读取并填写我的编码“Blosum62 矩阵”?

此外,另一种方法可能是使用一些数学公式并将其包含在您的编程逻辑中以构造“Blosum62 矩阵”。但不是很确定这个选项。

任何想法或见解都会受到赞赏。

谢谢。

0 投票
6 回答
10315 浏览

optimization - 使用 R 拆分字符串和计数字符的更快方法?

我正在寻找一种更快的方法来计算从 FASTA 文件中读取的 DNA 字符串的 GC 内容。这归结为获取一个字符串并计算字母“G”或“C”出现的次数。我还想指定要考虑的字符范围。

我有一个相当慢的工作函数,它导致我的代码出现瓶颈。它看起来像这样:

运行 Rprof 给我以下输出:

有什么建议可以让这段代码更快吗?

0 投票
5 回答
964 浏览

optimization - R 优化:在这种情况下如何避免 for 循环?

我正在尝试在 R 中做一个简单的基因组跟踪交叉,并遇到了主要的性能问题,可能与我使用 for 循环有关。

在这种情况下,我以 100bp 的间隔预定义了窗口,我试图计算每个窗口中有多少被 mylist 中的注释覆盖。从图形上看,它看起来像这样:

所以我写了一些代码来做到这一点,但它相当慢并且已经成为我代码中的瓶颈:

自然,这用于比我在此处提供的示例大得多的数据集。通过一些分析,我可以看到瓶颈在 for 循环中,但是我笨拙地尝试使用 *apply 函数对其进行矢量化导致代码运行速度要慢一个数量级。

我想我可以用 C 写一些东西,但如果可能的话,我想避免这种情况。任何人都可以提出另一种可以加快计算速度的方法吗?

0 投票
5 回答
1481 浏览

java - 在 MATLAB 中更改 seqlogo 图形的 x 轴

我正在以编程方式制作大量的seqlogos。它们有数百列宽,因此运行seqlogo通常会创建太薄而无法看到的字母。我注意到我只关心其中的一些列(不一定是连续的列)......大多数都是噪音,但有些是高度保守的。

我使用类似这样的片段:

虽然当我这样做时,我会丢失有关数据来自哪些列的信息。

通常我只会更改seqlogo. 但是,seqlogo's 是某种疯狂的基于 java 的对象,调用如下:

不工作。任何帮助将不胜感激。

谢谢,威尔

编辑:

在赏金上,我愿意接受任何一种更改轴标签的疯狂方法,包括(但不限于):使用图像处理工具箱在保存后修改图像,使用文本框创建新的 seqlogo 函数,修改java 代码(如果可能的话)等。我不愿意接受诸如“使用 python”、“使用这个 R 库”或任何其他类型的非 Matlab 解决方案之类的东西。

0 投票
12 回答
8254 浏览

perl - 为什么 Perl 在生物学研究中被如此广泛地使用?

我作为一名学生在生物研究所担任支持人员,Perl 似乎无处不在。不是针对每个项目,但似乎这里超过一半的人在办公室/办公桌上/上都有几本 Perl 书籍。

为什么 Perl 在生物学中被如此广泛地使用?