问题标签 [genome]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
124 浏览

python - NGSLIB 包安装错误

我正在尝试为 oncotator 1.9.5.0 安装 ngslib python 包。但是每次安装由于某种原因失败(如下所述)。我已经尝试了所有可能的方法,例如

直接或

或者

每次我收到以下错误:

起初它开始很好,但后来在setup.py. 大部分时间在png.h文件中。

如何为 oncotator(用于注释目的的包)安装 ngslib(特别是 1.1.9)?我正在使用 oracle Linux 服务器并使用 python 2.7

谢谢。

0 投票
0 回答
379 浏览

r - 无效的命令名称“tk_chooseDirectory”错误

我正在将 bioconductor 用于 WES 管道,并且正在使用 tk_choose.dir 来选择用户存储输入文件的目录(并将其存储以供进一步使用)。这里的命令行

但是这些命令行显示了一些错误,如下所示(尽管 library(tcltk)工作正常)

任何提示,我无法弄清楚是否已经安装并加载了库,那么为什么这个命令不起作用。我正在使用 R 版本 3.4.3 和 bioconductor 版本 3.2

谢谢。

0 投票
2 回答
1573 浏览

python - 多次循环列表

是否可以多次遍历列表?基本上,我有一个字符串列表,我正在寻找最长的超字符串。列表中的每个字符串都有至少一半长度的重叠,并且它们的大小都相同。我想看看我添加到的超字符串是从列表中的每个序列开始还是结束,当我找到一个匹配项,我想将该元素添加到我的超字符串中,从列表中删除该元素,然后一次又一次地循环它,直到我的列表为空。

当我不使用最终的 elif 语句并给我正确的答案 ATTAGACCTGCCGGAATAC 时,这有效。但是,当我使用更大的字符串列表执行此操作时,我仍然会在列表中留下我希望为空的字符串。如果我只是在寻找要添加到超字符串前后的字符串(我的代码中的基因组),那么最后一个循环也是必要的。

0 投票
1 回答
367 浏览

python - 使用python制作随机人类基因组

我需要帮助创建一个程序,该程序创建一个使用字母“A”“C”“T”和“G”的随机测序基因组的文本文件。最终目标是产生大约一百万个随机测序的基因组,然后使用另一个程序搜索它们以寻找导致特定疾病的已知模式。然后我会从我的 python 代码中收集统计数据,并将它们与现实的数据进行比较。

0 投票
1 回答
387 浏览

r - SNP 与基因名称的坐标

我在 UCSC 提供的床文件中有 SNP id 和坐标。我想将它们映射到它们的基因名称。

我参考了许多建议使用 bedtools intersect、UCSC 表格浏览器等的帖子,但我无法获得成功的结果。请建议用于此特定数据的选项。

0 投票
1 回答
287 浏览

r - R蛋白质组学:输入文件“ExpressionSet”的问题:处理信息:msmsTest包

更新的问题:

我想使用 msmsTest 包来统计我的蛋白质组学数据(光谱计数类型)。

但是,使用以下命令导入文件时出现消息错误:

我认为我的问题来自上一步,当时我尝试以适当的格式生成文件,该文件应该是 ExpressionSet 文件。为此,我尝试逐步按照 ExpressionSetIntroduction 手册进行操作,这对我来说似乎没问题,但是每当我将命令“e <- pp.msms.data(myStackoverflowexample)”与 msmsTest 包一起使用时,我都会收到错误消息。

请帮助我,我被困了几个星期,这可能是我错过的一件非常愚蠢的事情。

您可以在此处获取示例数据集(原始数据和表型数据): https ://www.dropbox.com/s/o9ts4k5qrnyem6d/rawdata.txt?dl=0 https://www.dropbox.com/s/3oy6n6y5hfq30ee/pdata .txt?dl=0

下面是允许我从头开始构建 ExpressionSet 文件的代码:

所以在这段代码之后,我被 msmsTest 包卡住了:

如果我们查看手动示例,我们会看到键入时没有出现的“处理信息”行myStackoverflowexample

关于这个问题的任何线索,最终能够通过统计分析处理我的文件?

非常感谢您的帮助。

最初的(以及之前的)问题:

我想试试 msmsTest 包。

但是,当我使用示例数据集尝试手册中的代码时,出现以下错误消息:

所以我被困在那里,我不能再进一步了。

我试图将我的数据集定义为.data.frame() 或 as.matrix(),但我得到了相同的错误消息。

我已经阅读了 biobase 中有关 exprs() 函数的信息:“这些通用函数访问存储在从 eSet 类派生的对象中的化验数据的表达式和错误测量值。”

但这对我没有多大帮助......我已经阅读了一些与基因组数据的类似 exprs() 问题相关的帖子,但对我来说这听起来像是“胡言乱语”。显然,我的 data.frame 的 eSet 类结构可能有问题,但我不明白这意味着什么以及如何解决它。

有谁知道如何解决这个问题以及如何继续?

提前非常感谢,

亲切的问候,

天空R

0 投票
1 回答
235 浏览

r - 蛋白质组学:使用 MSnbase 创建 MSnSet 类文件

我想创建一个 MSset 文件(蛋白质组学数据,数据对应于光谱计数),但我收到错误消息并且卡住了(在阅读手册、帮助、论坛等之后)。

您可以在这里获取我的文件: https ://www.dropbox.com/sh/dw7zfgiku6cteba/AADP3U2yxB5LgXy5ykJYFf0ga?dl=0

这是我尝试过的代码:

最后一条命令返回错误消息

我已经验证了以下内容:

我还尝试使用“as.matrix()”代替“as.character()”,将“as.matrix()”用于“data”,将“as.data.frame()”用于“fdata”和“pdata”。

尺寸正确匹配,在这种情况下不是“NULL”,但它不能解决问题,因为我收到以下消息:

如果我尝试:

我尝试使用以下内容创建我的 MSnSet 文件(初始读取为.character ...):

如果我为“data”读取文件“as.matrix”,为“fdata”和“pdata”读取文件“as.data.frame”:

所以我不知道问题出在哪里。关于如何正确创建我的 MSnSet 文件的任何想法?

非常感谢您的帮助。

天空R

0 投票
0 回答
194 浏览

r - 将 KEGG 注释结果自动提取并组织到 Excel 中

我在“KAAS - KEGG Automatic Annotation Server”上启动了一个氨基酸序列查询。

然后我下载了名为“myfile.keg”的结果文件。可以在以下位置下载一个显示其外观的小示例文件:https ://www.dropbox.com/s/ixf0091z5q3cx9z/myfile.keg?dl=0

(我用记事本++打开它)

在这个文件中,您可以从 KEGG 中看到我的每个基因的不同功能类别,后者被称为“MYGENEACCESSION01”(或 -“02”、-“03”等)。

我想从第一个 file.keg 中提取所有信息并将其组织到一个新文件(例如,excel)中,如下所示:https ://www.dropbox.com/s/xq4714ngesap9dx/annotation.xlsx?dl=0

CSV 版本在这里:

我已经手动完成了,但它非常繁琐,而且我的数据集比提供的示例大得多。

有什么想法可以用 R 或其他程序自动完成吗?(你认为 R 脚本可以完成这项工作吗?)

0 投票
0 回答
391 浏览

bioinformatics - 使用 MaSuRCA 3.2.6 汇编程序的问题

我实际上正在使用 MaSuRCA-3.2.6 来组装我的基因组并运行休闲脚本:

然后,我得到了 asemble.sh 文件,我也运行了它,得到了以下 .out:

和.error:

有人知道这里发生了什么吗?谢谢你的帮助。

2 个 fasta 文件来自 illumina Hiseq 3000 150bp,我的物种的基因组大小约为 1.5 GB。

0 投票
1 回答
537 浏览

genetic-algorithm - 整洁:物种形成

我试图自己实现整洁,使用原始论文但被卡住了。

假设在上一代我有以下物种:

我现在对下一代的尝试。如下:

  1. 从每个物种中删除每个基因组,除了一个随机基因组。
  2. 将每个基因组放入物种中/也许创建一个新基因组
  3. 将该物种的分数设置为该物种中每个基因组的分数的平均值。

    4.1 通过杀死每个物种中最差的 90% 来繁殖。

    4.2 根据他们的分数选择一个物种。

    4.3 从那个物种中,选择 2 个基因组并培育一个新的基因组。

我不确定这是否是正确的尝试,尤其是当我“杀死” 90% 的基因组时。这个百分比值是我现在随机选择的(这只是概念)。

如果一个物种,在杀死之后,有 0 个成员。后来灭绝了吗?

在我给出的例子中,如果我杀死 90%,Specie 4 很可能会灭绝。

我的尝试是否正确,或者一个物种通常是如何灭绝的?