10

我接触了 Teradata。我从未接触过hadoop,但从昨天开始,我正在对此进行一些研究。通过对两者的描述,它们似乎可以互换,但在一些论文中写道,它们用于不同的目的。但我发现的都是模糊的。我很困惑。

有没有人有这两个经验?它们之间的严重区别是什么?

简单示例:我想构建 ETL,它将转换数十亿行原始数据并将它们组织到 DWH。然后对它们进行一些资源昂贵的分析。为什么要使用 TD?为什么选择 Hadoop?或者为什么不呢?

4

4 回答 4

9

我认为这篇题为“MapReduce 和并行 DBMS:朋友还是敌人”的文章很好地描述了每种技术最有效的情况。简而言之,Hadoop 非常适合存储非结构化数据和运行并行转换以“清理”传入数据,其中 DBMS 擅长快速执行复杂的查询。

于 2013-04-02T19:58:37.757 回答
4

Hadoop、带扩展的 Hadoop、RDBMS 功能/属性比较

我不是这方面的专家,但在 coursera.com 课程“数据科学导论”中,有一个名为:比较 MapReduce 和数据库的讲座以及课程的 map reduce 部分中关于并行数据库的讲座。

以下是这些讲座中关于 MapReduce 与 RDBMS(不一定是并行 RDMBS)比较的总结。要记住的一点是,如果您包含对 Hadoop 的扩展,如 PIG、Hive 等,则比较是不同的。我将放入 () MapReduce 扩展,以添加其中一些功能/属性。

RDBMS 具有但不是本机 MapReduce 的一些功能/属性:

  • 声明性查询语言 -(Pig、HIVE)
  • 模式(Hive、Pig、DyradLINQ、Hadapt)
  • 逻辑数据独立
  • 索引(Hbase)
  • 代数优化(Pig、Dryad、HIVE)
  • 缓存/物化视图
  • 酸/交易

MapReduce(相对于常规 RDBMS 不一定是 Parallel RDMBS)

  • 高可扩展性
  • 容错
  • “单人部署”</li>
于 2013-05-25T17:56:22.033 回答
3

我多次被问到这个问题,我通常给出的答案是汽车类比(这很愚蠢,因为我不是汽车人 - 但它似乎有效)

  • Teradata 是面向大众的汽车/dbms - 它可靠、成熟、运行良好,并且在您需要时随时可用。很难(与 Hadoop 相比)为基础产品定制和添加功能。
  • Hadoop 是发烧友的汽车/dbms - 它不那么可靠或成熟,只要您关注它,它就可以很好地工作。很容易(与 Teradata 相比)为基础产品定制和添加功能。

换句话说,Teradata 是您放置关键任务流程(运营报告、企业报告、决策支持等)的可靠主力。Hadoop 是您可以做很多此类事情的地方,但是如果您有一天早上来到这里,发现您的监管报告无法生成,因为有人应用了补丁或者您突然得到了一个“太许多小文件”的问题。

回到类比,如果您不想太技术化并且制造商的产品(dbms 和/或汽车)开箱即用,Teradata 是一个不错的选择。另一方面,如果您想在引擎盖下修修补补,更换化油器(或其他),调整齿轮比,根据您是在乡村还是城市驾驶调整燃油空气混合物,安装涡轮增压器和/或者你的家人抱怨你周末在车库里呆了多长时间——Hadoop 是你的最佳选择。

恕我直言,大多数(如果不是所有)组织都需要两者。我希望这有帮助 :-)

于 2018-09-26T04:21:12.393 回答
2

首先,Vanilla Apache Hadoop 是 100% 开源的。但是,如果您需要商业支持和咨询服务,可以使用 Cloudera、MapR、HortonWorks 等公司。

Hadoop 得到了不断增长的社区的支持,该社区修复了错误并在一致的基础上进行了改进。Hadoop 存储模型 HDFS 基于 Google 的GFS架构,该架构已被证明可以处理大量数据。此外 Hadoop 分析模型 Map Reduce 是基于 Google 的Map Reduce Model

Hadoop 被 Facebook、Yahoo、Twitter、EBay 等科技巨头用来实时和被动地存储和分析大量数据。

对于您的问题,ETL 系统请阅读这些幻灯片,您将在其中看到。

现在好了 为什么选择 Hadoop?

  1. 开源
  2. 经过验证的大量数据存储和分析模型
  3. 设置和运行的最低硬件要求。

现在好了 为什么是TD?

  1. 商业支持
于 2013-01-31T09:47:38.623 回答