我对安装 Platfora 和 Datameer 分析工具很感兴趣。我怀疑这两个工具的文档,我们看到现有的 Hadoop 发行版,它们给出了包括 CDH、HDP 和 MapR 在内的兼容性列表。但我想将这些安装在现有的普通 Hadoop 中。即我已经通过一一下载Apache Hadoop组件并准备集群来安装Hadoop。
这些工具在这种情况下会起作用吗?
我对安装 Platfora 和 Datameer 分析工具很感兴趣。我怀疑这两个工具的文档,我们看到现有的 Hadoop 发行版,它们给出了包括 CDH、HDP 和 MapR 在内的兼容性列表。但我想将这些安装在现有的普通 Hadoop 中。即我已经通过一一下载Apache Hadoop组件并准备集群来安装Hadoop。
这些工具在这种情况下会起作用吗?
您可以通过选择 Hortonworks 的 HDP 发行版使用普通 Apache Hadoop 安装 Platfora - HDP 发行版的核心是普通 Apache Hadoop。(我在 Platfora 工作。我们支持许多不同的 Hadoop 发行版,但我们的很多开发实际上是使用普通的 Apache Hadoop 完成的)。
Platfora 不仅将您的 Hadoop 集群用于输入数据,还通过生成本机 MapReduce 和 Apache Spark 作业来处理原始、大容量、结构化或半结构化输入数据(JSON、XML、日志文件、CSV、Avro、来自 Hive 的数据,其他处理管道和库的输出,你可以命名它)。这可以很好地扩展,但是在您的工作流程中为您的分析问题的每一次更改使用更高延迟的框架(如 MapReduce 或 Spark)会使您的周转时间变长 - 不利于生产力。这就是为什么 Platfora 使用支持低延迟视觉发现前端的分布式横向扩展内存查询引擎访问这些中间结果的原因。
是的,它有效。只要您使用“最新的稳定”Yarn、HDFS 和 Map Reduce 版本 - Datameer 就可以正常工作。除此之外的任何事情都无关紧要,因为 Datameer 不使用 Hive、Oozie 或任何其他组件,而是将 tez、spark 等预先打包在应用程序中并在 Yarn 上对您透明地运行。截至今天,我们支持 50 种不同版本的 Hadoop。
我显然不能代表 Platflora,但它们并没有真正在 Hadoop 上运行,而是将数据从 Hadoop 中提取到在额外集群上运行的内存列式数据库中:+ 额外的扩展硬件(内存密集型)+ 结构化数据仅因为 SQL(记住 Hadoop 是作为 NO-SQL 构建的)+ 仅小数据(因为在内存中)+ 没有高级分析,如图形分析,因为基于 SQL
HTH Stefan(我在 Datameer 工作)