问题标签 [bioconductor]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 安装不是 .tar.gz 的本地包
我正在编写一个在当前目录中创建包的脚本(使用 BioConductor 的 pdInfoBuilder),我想在脚本运行时安装它。install.packages()
使用 repo=NULL 似乎是一个明显的选择,但这似乎只是除了压缩包和 gzip 压缩的包目录。有没有办法可以覆盖它,因为该create.pkg()
函数不会创建 *.tar.gz?目前我正在使用:
谢谢,文斯
r - R统计包:包装GOFrame对象
我正在尝试生成 GOFrame 对象以在 R 中为不受支持的生物体生成基因本体映射(参见http://www.bioconductor.org/packages/release/bioc/vignettes/GOstats/inst/doc/GOstatsForUnsupportedOrganisms.pdf)。
但是,按照说明从字面上看对我没有帮助。这是我执行的代码(ubuntu koala 64 位上的 R 2.9.2)
但是,当我尝试将我的数据框映射到 goFrame 对象时,我得到了这个错误
我很确定 GOFrame 包装器在 AnnotationDBI 库中,所以我很困惑。任何帮助都非常感谢:-)
bioinformatics - multiFASTA 文件处理
我很想知道是否有任何生物信息学工具能够处理 multiFASTA 文件,为我提供序列数量、长度、核苷酸/氨基酸含量等信息,并可能自动绘制描述图。也可以使用 R BIOconductor 解决方案或 BioPerl 模块,但我没有找到任何东西。
你能帮助我吗?非常感谢 :-)
r - R错误分配矩阵
大家好,
我试图使用标准 BioConductor 命令(64 位 linux 上的 R 2.8.1,72 GB RAM)加载一定数量的 Affymetrix CEL 文件
但我不断收到这条消息:
这个 allocMatrix 错误的一般含义是什么?有没有办法增加它的最大尺寸?
谢谢
r - 在 R 中,如何根据另一个对象的类设置 S4 类
我需要从 Bioconductor 的 ShortRead 库中创建一个 ShortReadQ 类型的对象。
质量槽需要是从 QualityScore 继承的对象,我可以很容易地从我希望模拟的另一个 ShortReadQ 对象中确定它。
在构造函数参数中使用该信息(“SFastqQuality”)的最佳方式是什么?
python - rpy2:将 data.frame 转换为 numpy 数组
我在 R 中有一个 data.frame。它包含很多数据:来自许多 (125) 数组的基因表达水平。我想要 Python 中的数据,主要是因为我在 R 方面的无能以及这应该是一个 30 分钟的工作。
我希望以下代码能够工作。要理解此代码,请知道该变量path
包含我的数据集的完整路径,加载时会为我提供一个名为immgen
. 知道这immgen
是一个对象(一个 BioconductorExpressionSet
对象),它exprs(immgen)
返回一个包含 125 列(实验)和数万行(命名基因)的数据框。(以防万一不清楚,这是Python代码,使用robjects.r调用R代码)
此代码运行,但expression_data
只是array([[1]])
.
我很确定这e
并不代表由于以下exprs()
原因生成的数据框:
但话说回来,谁知道呢?即使e
确实代表了我的 data.frame,它不会直接转换为数组也足够公平 - 数据框比数组(行名和列名)包含更多,所以也许生活不应该这么容易。但是我仍然无法弄清楚如何执行转换。文档对我来说有点太简洁了,尽管我对文档标题的有限理解意味着这应该是可能的。
有人有什么想法吗?
r - R + Bioconductor:在 ExpressionSet 中组合探针集
首先,这可能是这个问题的错误论坛,因为它非常适合 R+Bioconductor。这是我所拥有的:
现在 cd4T 是一个 ExpressionSet 对象,它包含一个包含 19794 行(probesets)和 15 个列(samples)的大矩阵。最后一行去掉了所有没有相应基因符号的探针集。现在的问题是,这组中的大多数基因都分配给了多个探针组。你可以通过这样做看到这一点
所以我的 19794 个探针组中只有 6897 个具有独特的探针组 -> 基因图谱。我想以某种方式组合与每个基因相关的每个探针组的表达水平。我不太关心每个探针的实际探针 ID。我非常希望最终得到一个包含合并信息的 ExpressionSet,因为我的所有下游分析都旨在与此类一起使用。
我想我可以编写一些代码来手动执行此操作,并从头开始制作一个新的表达式集。但是,我假设这不是一个新问题,并且存在代码来完成它,使用统计上合理的方法来组合基因表达水平。我猜这也有一个合适的名称,但我的谷歌并没有显示出太多用处。任何人都可以帮忙吗?
r - 在使用 R 的 CMA Bioconductor 包时,解决 SVM 分类交叉验证中的“模型空”错误
我正在使用 Bioconductor 包CMA对微阵列数据集中的 SVM 分类器执行内部蒙特卡罗交叉验证 (MCCV)。CMA 在内部使用 e1071 R 包进行 SVM 工作。
该数据集有 45 个样本(观察)的 387 个变量(属性),属于两个类别之一(标签 0 或 1;比例约为 1:1)。所有数据都是数字,没有 NA。我正在尝试一个 1000 次迭代的 MCCV,它使用limma 统计数据为 SVM 选择了 15 个变量来进行差异基因表达分析。在 MCCV 期间,45 个样本集的一部分用于训练 SVM 分类器,然后用于测试剩余部分,我正在为训练集部分尝试不同的值。CMA 还执行内部循环验证(默认情况下,在训练集中进行 3 倍交叉验证)以微调分类器以用于针对测试集的交叉验证。所有这些都是在 CMA 包中完成的。
有时,对于较小的训练集大小,CMA 会在控制台中显示错误,并暂停执行分类的其余代码。
即使我使用 limma 以外的测试进行变量选择,或者使用两个而不是 15 个变量进行分类器生成时,也会发生这种情况。我使用的 R 代码应确保训练集始终具有两个类的成员。我将不胜感激对此的任何见解。
下面是我使用的 R 代码,包括 Mac OS X 10.6.6、R 2.12.1、Biobase 2.10.0、CMA 1.8.1、limma 3.6.9 和 WilcoxCV 1.0.2。数据文件 hy3ExpHsaMir.txt 可以从http://rapidshare.com/files/447062901/hy3ExpHsaMir.txt下载。
一切正常,直到for(g in 0:10)循环中的g为 9 (用于改变训练/测试集的大小)。
回溯()的输出:
r - 我需要一个使用 R 的优秀 Limma 教程
我正在尝试对 R 用完的 limma 包进行一些统计分析。有人知道一个好的教程吗?
r - 包 Limma - 对比矩阵微分表达式
我正在使用 limma 来分析差异基因表达。对于建模,您需要一个设计和对比矩阵。我只想知道有没有人有这方面的经验。
假设表达式来自野生型 (WT) 和突变体 (M),它们要么是受刺激的 (S),要么是未受刺激的 (you)。对于野生型,我有 40 个表达式值,对于突变型,我有 20 个。
因此,当我想知道与野生型相比,突变体中哪些基因的反应不同时,我应该使用哪个公式来对比矩阵: