12

参与生物信息学的人应该知道哪些数据结构?我想任何人都应该知道列表、哈希、平衡树等,但我希望有特定于域的数据结构。有没有专门讨论这个主题的书?

4

7 回答 7

7

生物信息学中使用的最基本的数据结构是字符串。还有一系列不同的数据结构表示字符串。字符串匹配等算法基于有效的表示/数据结构。

关于这方面的综合著作是 Dan Gusfield's Algorithms on Strings, Trees and Sequences

于 2010-11-30T07:44:11.900 回答
5

许多有关生物信息学的介绍性书籍将涵盖您将使用的一些基本结构。我不确定标准教科书是什么,但我相信你能找到。查看一些特定于语言的书籍可能会很有用:

我选择这两个作为例子是因为它们是由 O'Reilly 出版的,根据我的经验,它出版了高质量的书籍。

我的硬盘上恰好有一本 Python 书,其中很多都谈到了使用 Python 处理生物信息学的字符串。生物信息学似乎没有使用任何花哨的特殊数据结构,只是使用现有的数据结构。

于 2010-11-30T07:46:55.150 回答
4

除了基本熟悉您提到的结构外,后缀树(和后缀数组)、de Bruijn 图区间图也被广泛使用。计算分子生物学手册写得很好。我从来没有读过整本书,但我把它作为参考。

于 2012-02-03T17:58:48.310 回答
4

例如,空间散列数据结构(kd-tree)通常用于任意特征向量的最近邻查询以及 3d 蛋白质结构分析。

最适合你的书是Zvelebil 的《了解生物信息学》,因为它涵盖了从序列分析到结构比较的所有内容。

于 2010-11-30T07:55:28.037 回答
3

我也强烈推荐这本书,http://www.comp.nus.edu.sg/~ksung/algo_in_bioinfo/

最近,python 在生物信息学中的使用比 perl 更频繁。所以我真的建议你从 python 开始,它在我的项目中被广泛使用。

于 2015-07-08T19:18:56.170 回答
2

许多生物信息学项目涉及组合来自不同的半结构化来源的信息。RDF 和本体对于其中的大部分内容都是必不可少的。例如,参见 bio2RDF 项目。http://bio2rdf.org/。对标识符的良好理解是有价值的。

许多生物信息学都是探索性的,并且经常使用快速的轻量级工具。请参阅Taverna等工作流工具,其中主要资源通常是一组 Web 服务 - 因此 HTTP/REST 很常见。

于 2010-11-30T07:52:01.320 回答
1

无论您的数学或计算专长是什么,您都可能在计算生物学中找到应用。如果没有,请将此问题作为stackoverflow的另一个问题,您将得到帮助:o)

正如其他答案中提到的那样,一维数据中的字符串比较和模式发现有些永恒,因为序列很容易获得。随着对医学信息学的新兴趣,您还可以进行二维/三维图像分析,例如针对基因组数据。借助分子生物化学,您还可以在 3D 表面和分子模拟上进行模式搜索。要研究药物效应,您将使用基因网络并比较跨组织的网络。适用于大数据和信息集成的典型挑战。然后,您需要对一种模式的可能性或偶然发现的任何特征的临床关联进行统计描述。

于 2017-05-28T17:39:58.843 回答