问题标签 [rna-seq]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 系数不可估计 voom r
我有一个 DGEList x,其中包含行中的基因和列中的样本(同一患者的多个样本)。我的数据中没有 NA,因为我使用了 complete.case 函数()。我以这种方式创建设计矩阵:
其中 f 是一些特征(在这种情况下,我有 9 个特征)。这些只是数字向量而不是因子,因此在设计矩阵中每个特征只有一列(等于年龄)。相反,性别是一个因素(M 或 F)。所以在设计矩阵中它有 2 列。
当我打电话时:
它返回:
系数不可估计:f7 f8 f9 age genderF genderM
警告信息:17080 探针的部分 NA 系数我发现在传递给 model.matrix 的总值不再为 6 之前是可以的。
为什么 ??
当我调用时:vfit <- lmFit(v, design)
它返回相同的警告,并且 vift$coefficents 中对应的列 (f7 f8 f9 age genderF genderM) 仅带有 NA。
我的另一个问题是?在 model.matrix 中使用多少个参数是正确的?因为我看到在model.matrix中传递6个参数没有错误,所以没问题,但不会超过6个。当我在model.matrix()中使用超过6个值时,它会返回之前描述的问题。
r - 在 R 中提取 Gene Games RNAseq 数据集
我有一个我可以理解或解决的问题。我从 GEO 下载了 GSE115262。https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE115262。我想从 GSM3172784HC$annotation.gene_name 中提取基因名称。当我这样做时,我得到的是数字而不是基因名称。如何获取字符值?如果我运行 Str(),这就是我得到的 $ annotation.gene_name : Factor w/ 56233 levels "5_8S_rRNA","5S_rRNA",..: 53514 52750 11836 48738。我们看到我得到了数字。如果我运行 head() 并查看 GSM3172784HC$annotation.gene_name,我会得到基因名称,这就是我想要的。我如何得到这些?
r - plotCountDepth R 函数中的问题。如何解决?
我正在处理一个名为 GBM 的数据框,其中包含单细胞测量值。所以我依靠 SCnorm 包来处理规范化过程并预先检查我的数据。我正在使用(plotCountDepth 函数)
这是我的管道:
我真的不明白为什么我继续返回此错误
colSums(Data[, which(Conditions == Levels[x])]) 中的错误:'x' 必须是至少二维的数组
即使我应用在BioConductor中找到的相同标准
为您提供主要信息 Label 是一个与 GBM 相同维度的向量,它是一个矩阵 G x S,包含一系列标签来区分每个细胞组。
先感谢您
PS:GBM 是一个矩阵,其中的列由不同的单元格名称命名,而行当然是基因
split - 尝试将文件拆分为四部分,而不拆分序列
我有一个包含许多序列的大文件,每个序列都以 . 开头>MSTRG
,我需要将其分成四个以在它们上运行工具。当我使用$ split -b [desired file size] [output prefix]
或使用该-l
选项时,它会将其拆分为所需大小的部分。但是,它会不加选择地这样做,从而导致序列中断。
一旦进行了 1/4 的匹配,有没有办法一起使用split
和拆分文件?grep
>MSTRG
python - 如何绘制跨基因组坐标的 log2 倍数变化(使用 Deseq2 输出 csv)
我有来自细菌基因组的 RNA-seq 数据(2 种不同处理的 3 个重复),并使用 DeSeq2 计算基因的 log2fc(padj < 0.05)。这会生成一个 csv 文件,其中包括(但不限于)基因名称和输出的 log2fc 示例。
更新:基因组发表和注释,所以我有每个基因对应的基因组坐标。也许它就像合并这些信息一样简单。但并不是所有的基因都有差异表达,所以它变得更加复杂......
但是,我想记录 2 RNA 变化(y 轴)与基因组坐标(x 轴)。但是我在互联网上搜索没有成功。有谁知道一个相对简单的方法来做到这一点?我很高兴使用 R/python... 我已经包含了我所追求的论文中的一个示例... 我所追求的 示例
也许这很简单,以至于没有人谈论它。但在我附上的图片中,他们没有讨论他们是如何绘制它的。
提前致谢!!
java - 将数据集和表型标签文件加载到 GSEA 时出现问题
我按照说明格式化了数据集和表型标签文件,但仍然无法正常工作。这是错误信息。这是数据集文件的图像
r - 为什么在 R 中使用 plotcounts 和 ggplot 绘制时,我的一个组织样本的 DEG 是单独绘制的?
我正在比较来自三种不同组织“肝脏”、“肾脏”和“大脑”的动物的三个年龄“新生儿”、“四岁”和“二十岁”的 RNA-seq 数据。我的colata如下所示。我成功地运行了 DESeq2 工具来分析差异表达的基因。但是,当我使用“plotCounts”和“ggplot2”绘制具有最小 padj 值的差异表达基因时,三个组织之一的基因被单独绘制,两个一起绘制。我无法弄清楚我哪里出错了。如果有人可以查看我的脚本,请建议我将所有样本绘制在一起。提前感谢您的宝贵时间。
##使coldata的行和矩阵(cts)的列的顺序相同:
矩阵的输出(cts):
为数据创建 Deseq2 矩阵对象:
预过滤 - 在这里我们删除读取计数非常低的行。
设置因子
运行差异表达分析
要获得构建结果表的系数: resultsNames(dds) OUTPUT: 1 "Intercept" "condition_..NB. vs ..four." “条件_..二十。对..四。” [4] “condition_.four. vs ..four.” “条件_.NB。与..四个。” “条件_.二十。对..四。”
是否有可能只获得一个系数“condition_..NB. vs ..four._vs..twenty”?如果是,我应该使用什么代码?
基于 resultsName(dds) 获得的系数的对数倍数变化收缩:
要按最小 p 值排序我们的结果表:
了解小于 0.1 的调整后 p 值的数量
运行上述代码后,我尝试使用 ggplot2 绘制具有 min padj 值的基因:
但是该图显示了两个组织样本的基因一起绘制,而第三个组织分别绘制。该图可以在这里看到: custom plotting using ggplot
谁能建议我正确的代码来获得显示所有组织的所有基因的图表?
感谢您的时间。
cluster-analysis - RNAseq 生物复制在 PCA 图中不聚集
我有来自 4 个样本的 RNAseq 数据,每个样本有 3 个生物学重复。我目前正在尝试使用 DESeq2 进行差异表达分析,但是当我制作 PCA 图或相关热图时,生物复制不会聚集在一起。这是我第一次使用 RNASeq 分析,所以不确定最好的前进路线是什么?如果可能的话,我想避免用新样品重复实验!
我在 DESeq2 之前的管道如下:
FastQC 质量检查 -> Trimmomatic -> Kallisto
我使用 tximport 将 kallisto 文件转换为适合 DESeq2 的格式
bash - 用于循环访问类似文件并输入命令的 Bash 脚本
我是 bash 脚本的新手,目前正在尝试编写脚本但失败了。我有一个需要输入脚本的配对样本列表,该脚本会将 2 个文件合并为 1 个文件。合并2个文件的脚本是:
./mergePEsam.pl file1_1.sam file1_2.sam file.merge.sam
我正在尝试创建一个循环,该循环将使用上面的脚本通过并合并 sample_1.sam 和 sample_2.sam。到目前为止我写的失败的脚本是:
帮助将不胜感激
python - 如何根据另一个观察在 scanpy 上添加观察类别?
我有一个串联的单细胞 RNAseq anndata
我想'Sex'
为不同的“样本”创建另一个 obs
我知道我可以用
但是对于特定的样本类别而不是整个集合,我该如何做呢?
谢谢!