7

作为这个问题的必然结果,我想知道是否有很好的比较研究,我可以咨询并传递关于使用 RDMBS 进行连接优化与系统非规范化以便始终一次访问单个表的优势。

具体来说,我想了解以下信息:

  • 性能或规范化与非规范化。
  • 规范化与非规范化系统的可扩展性。
  • 非规范化的可维护性问题。
  • 非规范化的模型一致性问题。

有点历史,看看我要去哪里:我们的系统使用内部数据库抽象层,但它很旧,不能处理多个表。因此,所有复杂对象都必须在每个相关表上使用多个查询来实例化。现在,为了确保系统始终使用单个表,在整个表中都使用了大量的系统非规范化,有时会压平两到三层深度。至于 nn 关系,他们似乎已经通过精心设计他们的数据模型来解决它,以避免这种关系,并且总是退回到 1-n 或 n-1。

最终结果是一个错综复杂的系统,客户经常抱怨性能。在分析这样的瓶颈时,他们从不质疑系统所基于的这些基本前提,并且总是寻找其他解决方案。

我错过了什么 ?我认为整个想法是错误的,但不知何故缺乏无可辩驳的证据来证明(或反驳)它,这就是我求助于你们的集体智慧来指引我走向好的、被广泛接受的文学作品,这些文学作品可以说服我团队中的其他成员方法是错误的(让我相信我对一致的数据模型过于偏执和教条)。

我的下一步是建立自己的测试平台并收集结果,因为我讨厌重新发明轮子,我想知道这个主题已经有了什么。

---- 编辑注释:该系统最初是用平面文件构建的,没有数据库系统......只是后来它被移植到数据库,因为客户坚持使用 Oracle 的系统。他们没有重构,只是简单地为现有系统添加了对关系数据库的支持。平面文件支持后来被删除,但我们仍在等待重构以利用数据库。

4

2 回答 2

2

一个想法:你有一个明确的阻抗不匹配,一个数据访问层只允许访问一个表?停在那里,这与关系数据库的最佳使用完全不一致。关系数据库旨在很好地完成复杂的查询。除了返回单个表之外别无选择,并且可能在业务层中进行任何连接,只是没有意义。

有关规范化的理由以及潜在的一致性成本,您可以参考 Codd 以后的所有材料,请参阅 Wikipedia文章

我预测,对这类东西进行基准测试将是一项永无止境的活动,特殊情况将比比皆是。我声称规范化是“正常的”,人们从干净的数据库设计中获得了足够好的性能。也许一种方法可能是一项调查:“您的数据标准化程度如何?从 0 到 4。”

于 2009-08-02T08:52:57.757 回答
1

据我所知,Dimensional Modeling是唯一一种背后有一些理论的系统非规范化技术。这是数据仓库技术的基础。

DM 是由 Ralph Kimball 于 1997 年在“ A Dimensional Modeling Manifesto ”中开创的。Kimball 还撰写了大量书籍。评论最好的书是“ The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second Edition) ”(2002 年),虽然我还没有读过。

毫无疑问,非规范化提高了某些类型查询的性能,但这样做是以牺牲其他查询为代价的。例如,如果您在产品和订单之间存在多对多关系(在典型的电子商务应用程序中),并且您需要以最快的速度查询给定订单中的产品,那么您可以将数据存储在一种非规范化的方式来支持这一点,并获得一些好处。

但这使得查询给定产品的所有订单变得更加尴尬和低效。如果您同样需要进行两种类型的查询,则应坚持使用规范化设计。这是一个折衷方案,使两个查询具有相似的性能,尽管它们都不会像在支持一种查询的非规范化设计中那样快。

此外,当您以非规范化方式存储数据时,您需要做额外的工作以确保一致性。即没有意外的重复,也没有破坏的参照完整性。您必须考虑添加手动检查以确保一致性的成本。

于 2009-08-02T23:05:12.773 回答