问题标签 [biomart]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - lapply 和 BioMart 的另一个问题
我最近问了一个关于 lapply 的问题,但现在我改变了方法,遇到了更多我无法解决的问题。
这是我遇到问题的代码:
加载 biomart
做 hsapiens 集市
然后我提取人类基因:
设置物种向量
这一切都按预期工作,我在使用 lapply 时遇到问题
我收到错误消息:
代码像这样完美地工作:
但是我有很多物种,所以我希望能够使用一小段代码来提取物种的同源物,而不是必须为每个物种都重写。
我认为我在使用 lapply 时做错了,因为市场在不使用 lapply 时运行良好。
我之前的问题: 使用 biomart 的 lapply 问题
r - How to change two variables using lapply and biomart
I have used lapply along with biomart to extract the homologues for 3 different species. I also need to extract the target IDs for all of the homologues and I was hoping to also use lapply for the target IDs as well to make my code more efficient. The code I have so far is below:
Load Biomart:
Set the species vector
Make a connection to ensembl for all species
Get the human genes
Get the homologues but exclude humans as these have already been retrieved by using species[2:9]
This is where I run into problems, I don't know how to subset the ensembl_gene_id for each species and use lapply to run it. What I have tried so far is below:
I can get it to work the normal way like this:
But this is not as efficient as getting r to automatically change the species for me
r - 如何使用 lapply 计算 r 中列表中的唯一值
我之前在这里问过一个类似的问题,关于如何计算数据框中的唯一值,但我需要使用“lapply”,因为我以前使用的方式不起作用或者我无法让它与列表一起使用。我还被告知使用其中一个应用功能会更好。
这代表我的数据:
我想使用 lapply 来获取每个列表的唯一行数,例如,我需要如下输出:
然后使用“lapply”函数对第二个列表进行相同的操作
r - 如何使用 R 更改我的表
使用R我将如何改变我的表:
到代表总列的表,例如
r - 查询区域内的基因
我想检索一系列区域中存在的基因。说,我有一个带有查询位置的床文件,例如:
我想获得属于这些区域的基因。
我尝试过使用biomaRt,并且bedtools相交,但是我得到的输出是与所有区域相对应的基因列表,而不是一个一个,因为我想要获得的期望输出是每一行中的基因,但是在单独的行中,如果我一次执行一个查询区域。基本上我想知道哪些基因属于每个区域,但仍然能够识别哪些基因属于哪些区域。
我正在做的是,从一个检测到的 miRNA 的区域,我向上和向下扩展基因组区域,以便从这个 miRNA 中获取相邻的基因。我正在上下使用 100 万个碱基窗口。这仅适用于一个查询,但是,如何使用 biomaRt 进行许多查询或与 bedtools 进行许多交集,所以我有点像:
这意味着 GENEX、GENEY 和 GENEZ 落在 1:2665697-4665777 之内,MIR201 位于中间,因为该区域的计算方法是减去 100 万 bp 到 sart,并增加 100 万 bp 到结束位置。
我在某种程度上确定了每个 miRNA 的相邻基因,以便在物种内进行比较,但我不知道如何使用biomaRt或bedtools单独查询多个区域。
有什么帮助吗?
r - 对给出错误的行使用带有重复标识符的扩展
我的数据如下所示:
我需要它看起来像:
我试过使用:
我的实际数据包含 130,000 行(许多基因名称大约 14,000 个唯一),由 9 个物种组成。
当我将此方法应用于我的实际数据时,我得到:
r - 皮尔逊相关系数与 r 中的两个表
我有以下两个数据集:
“df”中的值代表功能多样性,我想根据物种 CTN 和功能多样性计算出每个基因的皮尔逊相关系数。
有没有一种方法可以根据“ctn_df”中的数据轻松地将 CTN 分配给“df”表中的特定物种。
对不起,如果这是一个简单的问题。
r - 如何使用 Biomart 提取 Ciona gutis 的 prosite 模式
通过使用 Biomart,我已经能够为一些物种的基因列表提取 prosite 模式。
例如对于人类,要提取 foxa3 基因的 prosite 模式,我将使用以下代码:
我希望能够简单地将市场更改为适合 Ciona gutis 的市场并使用相同的属性,例如
不幸的是,在使用 Ciona gutis 时没有“prosite pattern start”属性,listAttributes(ensembl[["cintestinalis"]])
即使 Ensembl 网站上提供了这些属性。
我想知道是否有解决方法?
r - 我可以使用 biomart 来绘制基因名称、省略号和染色体位置吗?
我从一些文本中提取了有关对象中基因和染色体的信息,以对一些文本的数据库进行分类。
我的结果遗漏了一些信息;事实上,有些文本可能包含 justthe gene name and the location
而我想得到omim number, the gene symbol, the gene name, and the chromosome location
这是我结果的一部分(使用 Rcode)
我想摆脱 NA:用等效的 nae 或代码替换每个;例如,获取arlts1
并找到指定的 omim 编号、基因名称和染色体位置的东西。
我搜索了很多,但找不到包含所有信息的详尽数据库
可能我可以这样做biomart
吗?我什至不知道有人可以帮助我解决我的问题吗?
r - converting from Ensembl gene ID's to different identifier
I've inherited a dataset of RNAseq output data from Canis Lupus (dog). I have the gene identifier in the Ensembl format, specifically they look like this, ENSCAFT00000001452.3. I am trying to use bioMaRt to convert them to a more common ID and need help. I am very novice to R and consider myself rather ignorant. Any help to get started.
Can these Ensembl ID's be converted to any other Ensembl ID (eg. different species)? Can these Ensembl ID's be converted to RefSeq, GI assesscion #? How
Started with this:
library('biomaRt')
mart <- useDataset("hsapiens_gene_ensembl", useMart("ensembl"))
genes <- df$genes
.......lost after this. Thanks for any help. Ryan