问题标签 [rna-seq]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 将 EntrezID 转换为基因名称
我正在尝试使用 org.Hs.eg.db 将我的 Ensembl 基因转换为它们的基因名称。
但是,每当我尝试时,它都会给我错误:select()' returned 1:many mapping between keys and columns
我试图查看其他帖子,但不明白为什么会这样?任何建议将不胜感激!
r - 如何按 R 中的条件过滤数据框中的行
我正在处理 4C 数据,其中我有一个 .txt 文件,其中包含染色体、开始、结束、nReads、RPM、p.value、q.value,我只对 chr15 中的重要交互感兴趣,后来想过滤那些交互远大于 100kb,接近 3kb。
在“kura_2”矩阵中,我有 3 列,即“chr”、“start”和“end”,其中我有一个新的开始作为基因的启动子和不同的结尾。所以我尝试编写上面的代码块,但是当我来到过滤步骤使用函数“距离”时,我收到了这个错误
现在我有一个 kura_2 矩阵,其中包含 3 列,即“chr”“start”“end”
现在,如何过滤开始和结束之间大于 100kb 且小于 3kb 的基因组相互作用?
新的开始是基因的启动子,新的结束是 ((start+end)/2) 这就是我有浮点值的原因,因为这样很容易绘制出我的启动子(诱饵)的相互作用。有没有更好的方法来过滤掉交互?先感谢您
r - MatrixEQTL:协变量文件格式/错误
我目前正在运行 MatrixEQTL,我一直在试图找出我的代码无法运行的原因。这是我的代码,这是我尝试运行 MatrixEQTL 时弹出的错误。
qr.default(t(cvrt)) 中的错误:外部函数调用中的 NA/NaN/Inf (arg 1) 另外:警告消息:在 storage.mode(x) <-“double”中:强制引入的 NA
这也是我的协变量矩阵的样子 :协变量截图
我只是格式化错误还是什么?
r - 使用 Bioconductor 构建 ExpressionSet 时出错
我正在尝试制作用于分析 RNA-seq 数据的 ExpressionSet 文件。我只是有一个称为“exprs”的计数矩阵,一个称为“特征”的特征(基因)的数据框和一个称为“表型”的样本属性的数据框。这是我运行的将所有数据导入 R 并创建 Expressionset 的单个“对象”的代码。但它返回一个错误。
rna-seq - 在 scRNA seq 分析中将 UMAP 应用于另一批细胞?
我最近阅读了一篇论文,其中研究人员使用单细胞 RNA seq 来询问动脉粥样硬化病变中的细胞。他们首先从一些小鼠身上分离出病变中的细胞,并用这些细胞生成 UMAP(附件图 2A)。然后他们从另一批小鼠中分离出病变中的细胞,第二批细胞产生的 UMAP 与第一批完全相同(附件图 3A)。
他们写道:“我们对……第二批细胞进行了 scRNA-seq 分析……以与……第一批相同的方式……我想知道为什么他们在来自不同批次细胞的 UMAP 上得到完全相同的簇它来自不同的转基因小鼠。
他们在UMAP上得到相同的细胞簇和分布是否仅仅因为所有细胞都来自动脉粥样硬化病变,尽管来自不同的转基因小鼠?来自不同转基因小鼠的细胞之间的细胞组成和转录组的微小差异不会影响它们的集群吗?或者他们使用一些特殊的方法将一个聚类从一批细胞应用到另一批细胞?
pca - vst() 和assay(vst()) 之间的真正区别是什么?
所以我正在查看一些 RNA-seq 数据,并试图绘制成对的主要成分。但是,我们当前的 R 脚本使用命令 vsd=vst(dds,blind=FALSE) 但我能够获得配对图的唯一方法是在分析的产品上使用 pca 命令(vst(dds,blind=错误的))。似乎问题在于分析命令将结果转换为矩阵 - 但生成的 PCA 图给了我完全不同的主要成分。
例如 - 使用 plotPCA(vsd, intgroup="condition") 给我 PC1 94% 的方差,而 PC2 有 3% 的方差。
对于相同的数据,使用 pca(assay(vst(dds,blind=FALSE)), removeVar=0.1, metadata=coldata),我得到 PC1 的方差为 53%,PC2 的方差为 6%,大约有 9 个主成分.
我更喜欢使用 pca(assay..) 命令,因为我可以轻松获得配对图和每个基因对特定成分的贡献程度的列表,但是导致这些主要成分差异的真正差异是什么?是正确的?如果我必须使用第一个命令,我怎样才能得到配对图和基因加载列表?
bash - snakemake “以非零退出代码退出的命令之一;请注意,snakemake 使用 bash 严格模式!”
您好我正在尝试使用snakemake 运行管道。具体来说,我按照此处指定的说明运行演示 rna-seq 分析管道:https ://gagneurlab-drop.readthedocs.io/en/latest/installation.html
当我运行时,snakemake --cores 1
我收到以下错误消息::
任何帮助,将不胜感激!我对生物信息学很陌生!
r - 微分表达式分析——开关截距系数
我正在尝试使用 edgeR 对生物计数数据集进行差异表达分析。我的样本分为病例和对照,我想知道病例样本(即有条件的样本)与对照中上调或下调的基因。但是,我遇到了一个问题,即当前基因的结果与对照样本有关,而不是在使用edgeR
. 我可以用假数据重现 R 中的问题。
假数据在控制中的计数值低于病例样本,因此我们预计病例样本中的所有基因都会上调:
我对上述问题的看法是,logFC 都与控制样本有关,而不是与案例有关。我们可以首先在设计中看到这一点,因为该列是case_controlControl
:
然后logFC因此说明这些基因在对照样本中与病例相比被下调:
起初我认为这不是问题,因为我可以更改因子排序,targets
因此设计矩阵将创建一个case_controlCase
相反的比较,这意味着 p 值将相同但 logFC 的方向将是翻转:
设计矩阵按预期更新:
然而,奇怪的是这些基因仍然与对照有关:
我不知道为什么这仍然发生,因为design
已经改变了!如果有人有任何线索会令人惊奇,因为这已经让我头疼了一段时间!或者,如果有人有不同的方式来翻转 logFC,使其与案例样本而不是对照相关(即确保将对照样本作为 GLM 中的截距),那就太好了。请注意,我知道我可以交换结果表中的符号,但这是我真正想要避免的事情,并且更愿意了解我上面的代码中出了什么问题。
最后,只是为了说明,我认为我的问题不是特定的,edgeR
而只是使用 GLM 进行差异分析的一般问题。从根本上说,我只想知道如何使用 GLM 和设计矩阵交换截距系数。为清楚起见,我还将其发布到 Biostars,一个特定的生物分析社区网站:https ://www.biostars.org/p/9469339/
会话信息:
linear-regression - 添加变量时,固定效应模型矩阵的列秩不足
我在 RNAseq 数据上计算 LIMMA。当我使用这个公式时:
里面voomWithDreamWeights()
我没有问题。当我向此公式添加变量时,出现以下错误:
年龄和给我这个问题的变量是连续变量。