问题标签 [rna-seq]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
127 浏览

r - X 和 Y 上具有 2 个变量的散点图基因共表达

我有一个包含 2 个变量(A 和 B)的矩阵,以及我想绘制与该变量相关的两个基因的表达。

数据:

这就是我所做的:

我想在图表上绘制基因,以便它们对应于变量 A(x 轴)和变量 B(y 轴),所以它看起来像这样谢谢!:

在此处输入图像描述

0 投票
1 回答
507 浏览

rna-seq - 如何在edgeR中过滤DGEList中的样本

我正在尝试通过我称为“架构”的属性过滤在 edgeR 中创建的 DGEList 对象中的样本。

$samples 看起来像:

我想对列表进行子集化,以排除架构名称为“w”的样本。我尝试的东西比我记得的要多,最新的是:

我怎样才能做到这一点?

谢谢!

0 投票
1 回答
269 浏览

r - Limma 使用 makeContrasts 和 eBayes 比较 Bulk RNA Seq

经过一天的谷歌搜索,我决定最好在这里问这个问题。

所以实验是我有来自 3 名患者的大量 RNA seq 数据:A、B、C。他们的 RNA seq 数据是针对预处理、治疗周期 1、治疗周期 2、治疗周期 3 获得的。

所以我总共有 12 个批量 RNA seq 样本:

  • A.PreTreat -> A.Cycle1 -> A.Cycle2 -> A.Cycle3

  • B.PreTreat -> B.Cycle1 -> B.Cycle2 -> B.Cycle3

  • C.PreTreat -> C.Cycle1 -> C.Cycle2 -> C.Cycle3

我想使用 得到不同周期(即周期 3 到预处理,周期 3 到周期 2)之间的差异基因列表model.matrix(), lmFit(), makeContrasts(), contrasts.fit(), eBayes(),所有这些都在 limma 包中。

这是我的最小工作示例。

到目前为止,我被困在没有残留的自由度错误上。

我什至不确定这是否是 limma 统计上正确的方法来解决我在所有患者的第 3 周期治疗与预处理之间获取差异基因列表的问题。

任何帮助将不胜感激。

谢谢!

0 投票
0 回答
182 浏览

r - 在 Monocle 中以伪时间绘制所有基因

我想使用类似于下面代码的代码,该代码适用于 Monocle 包中的肺数据集:

我想为我自己的数据集运行以下命令,但最后一行花费的时间太长。diff_test_res 行也需要大约 5 分钟,但这对于与我的大小相当的肺数据集来说是即时的:

有熟悉 Monocle 的人知道我如何加快速度吗?

非常感谢。

0 投票
0 回答
64 浏览

rna-seq - 使用 nextflow 代码并行运行进程

如何设置输入以便我可以并行运行每个样本?

我只得到第一个样本的结果。

0 投票
0 回答
25 浏览

r - 系统命令在R中结束之前结束功能

salmonify在 R 中创建了一个函数,它将所有 fastq 文件放在一个文件夹中,然后使用该salmon quant函数在命令行中一个接一个地运行该system函数。但是,该system函数成功完成列表后,该函数的其余部分salmonify将不会运行。IE。它不打印语句,如果我尝试将salmonify函数嵌套在另一个函数中(为多个研究文件夹运行它),它会停在同一个地方。

我正在使用 linux ubuntu 18.04。三文鱼函数是最新的(1.1.0),R是3.6版本。

代码是:

用于打印将从中运行的列表的输出

是 :

然后鲑鱼功能开始,然后我无法让它打印Completed salmonify for...。在这里的任何帮助将不胜感激。

最好的,

詹姆士

0 投票
1 回答
81 浏览

r - 使用 R 中的 M3C 处理来自 pca() 的数据帧中的“0”和“-inf”

我有一个数据框,由 colnames 中的 sample_id、rownames 中的genenames 和一个值矩阵(rnaseq tpm)组成。我想从 M3C 包中执行 pca() 。我首先使用 log2 转换了我的矩阵:

然后使用以下方法带回行名:

但是,当我尝试 PCA 时,出现以下错误:

我检查了 df 并且某些列包含“-inf”作为第一个 df 的 log2(0) 的值。

“-inf”是问题吗?如果是,我该如何处理?

0 投票
1 回答
108 浏览

r - Snakemake doesn't read full file in R?

I'm using some quick R script to cbind files after performing quantification (kallisto/salmon). The problem is, I get an R error, saying my input files aren't the same length so cbind() won't work.
This is obviously not the case, they all are 16887 lines (checked with bash wc), and it works perfectly fine in R without snakemake.

Also worth mentioning, I do get an output for a random number of sample (~ 1 to 4).

Here's the R code :

And the snakemake rule :

My files are like this :

And the output should be like this, but with all 17 samples

If anyone has an idea to sort this out, will be gladly appreciated.

------------ EDIT Modified R code to go with the asnwer:

0 投票
0 回答
490 浏览

r - 针对已知批次效应校正 RNA-seq 数据集

我正在分析一个 RNA-seq 数据集,其中人类细胞系已暴露于多剂量的多种化合物中。在运行 QC 时,我注意到由于处理细胞的板不同而存在批次效应(不是很强,但想解释它)。我已经使用了 limma 包中的 ComBat 和 removeBatchEffect 来查看这两种方法中的任何一种在删除批次方面是否更好,但正如您从每个标准化步骤的控制样本上获得的 PCA 中看到的那样(原始数据、vst、 ComBat 和 Limma)似乎使用这两种方法中的任何一种都会增加批次分离。

不同标准化步骤中对照样本的 PCA 以突出批次效应: 在此处输入图像描述

我的感觉是,我在指定函数的参数时可能犯了一个错误,但是在查看 StackOverflow 上的类似请求时,我得到了这段代码。我用于生成运行 PCA 的不同规范化数据集的代码是:

原始数据和 vst 数据来自 DESeq。哈希对象是我的元数据文件,其中包含有关板块(批次)和处理条件(组)的信息。

运行 PCA(针对单个数据集)的代码是:

非常感谢您在此处解决此问题的任何帮助。

0 投票
0 回答
480 浏览

r - 计数基因:错误:组合对象没有共同的序列级别

我是处理 RNA-seq 数据的新手。我有人类 RNA-seq 数据,现在正在尝试使用 summariseoverlaps 计算基因,但我的所有文件都收到此警告:

“在 .Seqinfo.mergexy(x, y) 中:2 个组合对象没有共同的序列级别。(使用 suppressWarnings() 抑制此警告。)”

这就是我所做的:我将我的 RNA seq 文件与 Ensembl 参考文件 (Homo_sapiens.GRCh38.cdna.all.fa.gz) 对齐并生成 BAM 文件。

我还从 Ensembl 下载了 GTF 文件:Homo_sapiens.GRCh38.100.gtf.gz

我猜它与 seqnames 有关,但我不确定我必须做什么。我尝试将其转换为 Ensembl 风格: mapSeqlevels(seqlevels(bamfiles), "Ensembl") mapSeqlevels(seqlevels(txdb), "Ensembl") 但这没有做任何事情......

NB 功能计数也不起作用...

提前致谢!桑德拉