我接触了 Teradata。我从未接触过hadoop,但从昨天开始,我正在对此进行一些研究。通过对两者的描述,它们似乎可以互换,但在一些论文中写道,它们用于不同的目的。但我发现的都是模糊的。我很困惑。
有没有人有这两个经验?它们之间的严重区别是什么?
简单示例:我想构建 ETL,它将转换数十亿行原始数据并将它们组织到 DWH。然后对它们进行一些资源昂贵的分析。为什么要使用 TD?为什么选择 Hadoop?或者为什么不呢?
我接触了 Teradata。我从未接触过hadoop,但从昨天开始,我正在对此进行一些研究。通过对两者的描述,它们似乎可以互换,但在一些论文中写道,它们用于不同的目的。但我发现的都是模糊的。我很困惑。
有没有人有这两个经验?它们之间的严重区别是什么?
简单示例:我想构建 ETL,它将转换数十亿行原始数据并将它们组织到 DWH。然后对它们进行一些资源昂贵的分析。为什么要使用 TD?为什么选择 Hadoop?或者为什么不呢?
我认为这篇题为“MapReduce 和并行 DBMS:朋友还是敌人”的文章很好地描述了每种技术最有效的情况。简而言之,Hadoop 非常适合存储非结构化数据和运行并行转换以“清理”传入数据,其中 DBMS 擅长快速执行复杂的查询。
我不是这方面的专家,但在 coursera.com 课程“数据科学导论”中,有一个名为:比较 MapReduce 和数据库的讲座以及课程的 map reduce 部分中关于并行数据库的讲座。
以下是这些讲座中关于 MapReduce 与 RDBMS(不一定是并行 RDMBS)比较的总结。要记住的一点是,如果您包含对 Hadoop 的扩展,如 PIG、Hive 等,则比较是不同的。我将放入 () MapReduce 扩展,以添加其中一些功能/属性。
RDBMS 具有但不是本机 MapReduce 的一些功能/属性:
MapReduce(相对于常规 RDBMS 不一定是 Parallel RDMBS)
我多次被问到这个问题,我通常给出的答案是汽车类比(这很愚蠢,因为我不是汽车人 - 但它似乎有效)
换句话说,Teradata 是您放置关键任务流程(运营报告、企业报告、决策支持等)的可靠主力。Hadoop 是您可以做很多此类事情的地方,但是如果您有一天早上来到这里,发现您的监管报告无法生成,因为有人应用了补丁或者您突然得到了一个“太许多小文件”的问题。
回到类比,如果您不想太技术化并且制造商的产品(dbms 和/或汽车)开箱即用,Teradata 是一个不错的选择。另一方面,如果您想在引擎盖下修修补补,更换化油器(或其他),调整齿轮比,根据您是在乡村还是城市驾驶调整燃油空气混合物,安装涡轮增压器和/或者你的家人抱怨你周末在车库里呆了多长时间——Hadoop 是你的最佳选择。
恕我直言,大多数(如果不是所有)组织都需要两者。我希望这有帮助 :-)
首先,Vanilla Apache Hadoop 是 100% 开源的。但是,如果您需要商业支持和咨询服务,可以使用 Cloudera、MapR、HortonWorks 等公司。
Hadoop 得到了不断增长的社区的支持,该社区修复了错误并在一致的基础上进行了改进。Hadoop 存储模型 HDFS 基于 Google 的GFS架构,该架构已被证明可以处理大量数据。此外 Hadoop 分析模型 Map Reduce 是基于 Google 的Map Reduce Model。
Hadoop 被 Facebook、Yahoo、Twitter、EBay 等科技巨头用来实时和被动地存储和分析大量数据。
对于您的问题,ETL 系统请阅读这些幻灯片,您将在其中看到。
现在好了 为什么选择 Hadoop?
现在好了 为什么是TD?