问题标签 [bioconductor]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
3554 浏览

r - 安装不是 .tar.gz 的本地包

我正在编写一个在当前目录中创建包的脚本(使用 BioConductor 的 pdInfoBuilder),我想在脚本运行时安装它。install.packages()使用 repo=NULL 似乎是一个明显的选择,但这似乎只是除了压缩包和 gzip 压缩的包目录。有没有办法可以覆盖它,因为该create.pkg()函数不会创建 *.tar.gz?目前我正在使用:

谢谢,文斯

0 投票
2 回答
265 浏览

r - R统计包:包装GOFrame对象

我正在尝试生成 GOFrame 对象以在 R 中为不受支持的生物体生成基因本体映射(参见http://www.bioconductor.org/packages/release/bioc/vignettes/GOstats/inst/doc/GOstatsForUnsupportedOrganisms.pdf)。

但是,按照说明从字面上看对我没有帮助。这是我执行的代码(ubuntu koala 64 位上的 R 2.9.2)

但是,当我尝试将我的数据框映射到 goFrame 对象时,我得到了这个错误

我很确定 GOFrame 包装器在 AnnotationDBI 库中,所以我很困惑。任何帮助都非常感谢:-)

0 投票
4 回答
2467 浏览

bioinformatics - multiFASTA 文件处理

我很想知道是否有任何生物信息学工具能够处理 multiFASTA 文件,为我提供序列数量、长度、核苷酸/氨基酸含量等信息,并可能自动绘制描述图。也可以使用 R BIOconductor 解决方案或 BioPerl 模块,但我没有找到任何东西。

你能帮助我吗?非常感谢 :-)

0 投票
3 回答
1930 浏览

r - R错误分配矩阵

大家好,

我试图使用标准 BioConductor 命令(64 位 linux 上的 R 2.8.1,72 GB RAM)加载一定数量的 Affymetrix CEL 文件

但我不断收到这条消息:

这个 allocMatrix 错误的一般含义是什么?有没有办法增加它的最大尺寸?

谢谢

0 投票
3 回答
224 浏览

r - 在 R 中,如何根据另一个对象的类设置 S4 类

我需要从 Bioconductor 的 ShortRead 库中创建一个 ShortReadQ 类型的对象。

质量槽需要是从 QualityScore 继承的对象,我可以很容易地从我希望模拟的另一个 ShortReadQ 对象中确定它。

在构造函数参数中使用该信息(“SFastqQuality”)的最佳方式是什么?

0 投票
2 回答
5517 浏览

python - rpy2:将 data.frame 转换为 numpy 数组

我在 R 中有一个 data.frame。它包含很多数据:来自许多 (125) 数组的基因表达水平。我想要 Python 中的数据,主要是因为我在 R 方面的无能以及这应该是一个 30 分钟的工作。

我希望以下代码能够工作。要理解此代码,请知道该变量path包含我的数据集的完整路径,加载时会为我提供一个名为immgen. 知道这immgen是一个对象(一个 BioconductorExpressionSet对象),它exprs(immgen)返回一个包含 125 列(实验)和数万行(命名基因)的数据框。(以防万一不清楚,这是Python代码,使用robjects.r调用R代码)

此代码运行,但expression_data只是array([[1]]).

我很确定这e并不代表由于以下exprs()原因生成的数据框:

但话说回来,谁知道呢?即使e确实代表了我的 data.frame,它不会直接转换为数组也足够公平 - 数据框比数组(行名和列名)包含更多,所以也许生活不应该这么容易。但是我仍然无法弄清楚如何执行转换。文档对我来说有点太简洁了,尽管我对文档标题的有限理解意味着这应该是可能的。

有人有什么想法吗?

0 投票
2 回答
1558 浏览

r - R + Bioconductor:在 ExpressionSet 中组合探针集

首先,这可能是这个问题的错误论坛,因为它非常适合 R+Bioconductor。这是我所拥有的:

现在 cd4T 是一个 ExpressionSet 对象,它包含一个包含 19794 行(probesets)和 15 个列(samples)的大矩阵。最后一行去掉了所有没有相应基因符号的探针集。现在的问题是,这组中的大多数基因都分配给了多个探针组。你可以通过这样做看到这一点

所以我的 19794 个探针组中只有 6897 个具有独特的探针组 -> 基因图谱。我想以某种方式组合与每个基因相关的每个探针组的表达水平。我不太关心每个探针的实际探针 ID。我非常希望最终得到一个包含合并信息的 ExpressionSet,因为我的所有下游分析都旨在与此类一起使用。

我想我可以编写一些代码来手动执行此操作,并从头开始制作一个新的表达式集。但是,我假设这不是一个新问题,并且存在代码来完成它,使用统计上合理的方法来组合基因表达水平。我猜这也有一个合适的名称,但我的谷歌并没有显示出太多用处。任何人都可以帮忙吗?

0 投票
1 回答
3573 浏览

r - 在使用 R 的 CMA Bioconductor 包时,解决 SVM 分类交叉验证中的“模型空”错误

我正在使用 Bioconductor 包CMA对微阵列数据集中的 SVM 分类器执行内部蒙特卡罗交叉验证 (MCCV)。CMA 在内部使用 e1071 R 包进行 SVM 工作。

该数据集有 45 个样本(观察)的 387 个变量(属性),属于两个类别之一(标签 0 或 1;比例约为 1:1)。所有数据都是数字,没有 NA。我正在尝试一个 1000 次迭代的 MCCV,它使用limma 统计数据为 SVM 选择了 15 个变量来进行差异基因表达分析。在 MCCV 期间,45 个样本集的一部分用于训练 SVM 分类器,然后用于测试剩余部分,我正在为训练集部分尝试不同的值。CMA 还执行内部循环验证(默认情况下,在训练集中进行 3 倍交叉验证)以微调分类器以用于针对测试集的交叉验证。所有这些都是在 CMA 包中完成的。

有时,对于较小的训练集大小,CMA 会在控制台中显示错误,并暂停执行分类的其余代码。

即使我使用 limma 以外的测试进行变量选择,或者使用两个而不是 15 个变量进行分类器生成时,也会发生这种情况。我使用的 R 代码应确保训练集始终具有两个类的成员。我将不胜感激对此的任何见解。

下面是我使用的 R 代码,包括 Mac OS X 10.6.6、R 2.12.1、Biobase 2.10.0、CMA 1.8.1、limma 3.6.9 和 WilcoxCV 1.0.2。数据文件 hy3ExpHsaMir.txt 可以从http://rapidshare.com/files/447062901/hy3ExpHsaMir.txt下载。

一切正常,直到for(g in 0:10)循环中的g为 9 (用于改变训练/测试集的大小)。

回溯()的输出:

0 投票
1 回答
7607 浏览

r - 我需要一个使用 R 的优秀 Limma 教程

我正在尝试对 R 用完的 limma 包进行一些统计分析。有人知道一个好的教程吗?

0 投票
1 回答
1390 浏览

r - 包 Limma - 对比矩阵微分表达式

我正在使用 limma 来分析差异基因表达。对于建模,您需要一个设计和对比矩阵。我只想知道有没有人有这方面的经验。

假设表达式来自野生型 (WT) 和突变体 (M),它们要么是受刺激的 (S),要么是未受刺激的 (you)。对于野生型,我有 40 个表达式值,对于突变型,我有 20 个。

因此,当我想知道与野生型相比,突变体中哪些基因的反应不同时,我应该使用哪个公式来对比矩阵: