“mapr”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

165 浏览

docker - Docker - 从主机访问映射器 UI

我已经在 CentOS 机器上安装了 docker。现在我正在尝试在其上运行 MapR 沙箱。开始后我得到这个：

但我无法从与 CentOS 机器位于同一网络中的 windows 机器访问此 URL。

docker mapr

2015-04-15T09:34:13.123

0 投票

1 回答

710 浏览

hadoop - 单节点集群的 MapR 安装失败

我指的是单节点集群的快速安装指南。为此，我为 MaprFS 使用了 20GB 存储文件，但在安装时，它给出了“无法找到磁盘：/maprfs/storagefile”。

这是我的配置文件。

下面是我得到的错误。

请在这里帮助我。

谢谢沙市

2015-04-16T13:47:39.410

0 投票

1 回答

1022 浏览

hadoop - 如何使用 Spark 创建 MapFile 并访问它？

我正在尝试从 Spark RDD 创建 MapFile，但找不到足够的信息。到目前为止，这是我的步骤：

我开始时，

rdd.saveAsNewAPIHadoopFile(....MapFileOutputFormat.class)

这引发了一个异常，因为MapFiles必须对其进行排序。所以我修改为：

rdd.sortByKey().saveAsNewAPIHadoopFile(....MapFileOutputFormat.class)

效果很好，并且创建了我的 MapFile。所以下一步是访问文件。使用parts创建的目录名称失败，说它找不到data文件。回到谷歌，我发现为了访问MapFile我需要使用的部分：

天真地，我忽略了这HashPartioner一点，并期望这会找到我的条目，但没有运气。所以我的下一步是遍历读者并做一个get(..). 该解决方案确实有效，但速度极慢，因为文件由 128 个任务创建，导致 128 个part文件。

所以我调查了它的重要性，HashPartitioner发现它在内部使用它来识别要使用哪个阅读器，但似乎 Spark 没有使用相同的分区逻辑。所以我修改为：

rdd.partitionBy(new org.apache.spark.HashPartitioner(128)).sortByKey().saveAsNewAPIHadoopFile(....MapFileOutputFormat.class)

但同样 2HashPartioner不匹配。所以问题部分...

有没有办法MapFiles有效地组合（因为这会忽略分区逻辑）？
MapFileOutputFormat.getReaders(new Path(file), new Configuration());很慢。我可以更有效地识别读者吗？
我使用 MapR-FS 作为底层 DFS。这将使用相同的HashParitioner实现吗？
有没有办法避免重新分区，或者应该对整个文件进行排序？（与在分区内排序相反）
我也遇到了一个例外_SUCCESS/data does not exist。我需要手动删除这个文件吗？

任何有关此的链接将不胜感激。

PS。如果条目已排序，那么如何使用 HashPartitioner来定位正确的Reader？这意味着数据parts是Hash Partitioned然后按键排序的。所以我也尝试rdd.repartiotionAndSortWithinPartitions(new HashPartitioner(280))了，但再次没有任何运气。

hadoop apache-spark hdfs mapr

2015-04-18T09:08:51.573

0 投票

1 回答

696 浏览

mapreduce - Hive map-reduce 查询失败

我正在尝试运行我的第一个 Hive 查询，它可以启动 map-reduce 作业。我已按照“ http://doc.mapr.com/display/MapR/Hive ”中给出的所有步骤进行操作。

“web_log”表已被创建并且数据加载完成且没有错误。但是当尝试执行“SELECT web_log。FROM web_log WHERE web_log.url LIKE '%doc'*”时，我遇到了以下异常。

有人可以指导我吗？

mapreduce hiveql mapr

2015-04-19T14:55:58.447

0 投票

3 回答

11550 浏览

hadoop - 如何通过 Deliminator 拆分 Spark RDD 的行

我正在尝试将 Spark 中的数据拆分为Array[String]. 目前我已将文件加载到String.

> val csvFile = textFile("/input/spam.csv")

我想在分隔符上拆分,。

hadoop apache-spark apache-spark-sql mapr

2015-04-20T16:36:43.747

0 投票

4 回答

4251 浏览

scala - Spark shell错误：错误SparkDeploySchedulerBackend：要求删除不存在的执行程序11

每当我在 mapr Sandbox 上启动 spark-shell 时，我都会不断收到此错误

请帮我解决这个错误。

scala apache-spark mapr

2015-04-23T05:23:25.390

0 投票

2 回答

632 浏览

hadoop - Platfora 和 Datameer 的发行版

我对安装 Platfora 和 Datameer 分析工具很感兴趣。我怀疑这两个工具的文档，我们看到现有的 Hadoop 发行版，它们给出了包括 CDH、HDP 和 MapR 在内的兼容性列表。但我想将这些安装在现有的普通 Hadoop 中。即我已经通过一一下载Apache Hadoop组件并准备集群来安装Hadoop。

这些工具在这种情况下会起作用吗？

hadoop analytics cloudera-cdh hortonworks-data-platform mapr

2015-05-13T05:30:28.727

0 投票

2 回答

9636 浏览

hadoop - MapR-DB 和 Hbase 的区别

我对 MapR 有点陌生，但我知道 hbase。我正在浏览其中一个视频，我发现 Mapr-DB 是 MapR 中的 NoSQL DB，它类似于 Hbase。除此之外，Hbase 还可以在 MapR 上运行。我对 MapR-Db 和 Hbase 感到困惑。它们之间的确切区别是什么？

何时使用 Mapr-DB，何时使用 Hbase？

基本上我有一个 java 代码可以在 MapR 上的 Hbase 中进行批量加载，现在如果我使用与 Apache hadoop 相同的代码，该代码会在这里工作吗？

请帮助我避免这种混乱。

hadoop hbase mapr

2015-05-15T07:40:47.310

0 投票

0 回答

55 浏览

hadoop - 安装 hadoop 的教程分析 => 百万数据

我需要安装 hadoop 来分析数据、显示统计数据并从中开发应用程序。我需要知道我是否需要一台 windows/linux 机器？我需要多少个数据节点/名称节点？有这方面的教程吗？

更精确： 我必须分析包含呼叫信息（数百万或更多数据）的数据，并使用 hadoop 在界面（应用程序）中显示统计信息。所以开始我必须安装hadoop，但我需要知道我需要什么，有多少机器等。

hadoop installation mapreduce mapr

2015-05-18T09:40:20.140

0 投票

2 回答

651 浏览

hadoop - 错误 terasort.TeraSort: 输入路径不存在: maprfs:/user/user01/–DXmx1024m

通过修改参数运行terasort应用程序时，出现以下错误。

15/05/24 21:41:42 错误 terasort.TeraSort: 输入路径不存在: maprfs:/user/user01/–DXmx1024m

我为执行慢跑而运行的命令

如果我删除这些参数–DXmx1024m –Dmapred.reduce.tasks=2 -Dio.sort.mb=1，那么一切正常。

我认为我正面临以下错误，该错误发布在 jira 上，但适用于 windows https://issues.apache.org/jira/browse/HADOOP-8536

hadoop mapr

2015-05-25T04:59:39.717

问题标签 [mapr]

Reference