问题标签 [mapr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
165 浏览

docker - Docker - 从主机访问映射器 UI

我已经在 CentOS 机器上安装了 docker。现在我正在尝试在其上运行 MapR 沙箱。开始后我得到这个:

但我无法从与 CentOS 机器位于同一网络中的 windows 机器访问此 URL。

0 投票
1 回答
710 浏览

hadoop - 单节点集群的 MapR 安装失败

我指的是单节点集群的快速安装指南。为此,我为 MaprFS 使用了 20GB 存储文件,但在安装时,它给出了“无法找到磁盘:/maprfs/storagefile”。

这是我的配置文件。

下面是我得到的错误。

请在这里帮助我。

谢谢沙市

0 投票
1 回答
1022 浏览

hadoop - 如何使用 Spark 创建 MapFile 并访问它?

我正在尝试从 Spark RDD 创建 MapFile,但找不到足够的信息。到目前为止,这是我的步骤:

我开始时,

rdd.saveAsNewAPIHadoopFile(....MapFileOutputFormat.class)

这引发了一个异常,因为MapFiles必须对其进行排序。所以我修改为:

rdd.sortByKey().saveAsNewAPIHadoopFile(....MapFileOutputFormat.class)

效果很好,并且创建了我的 MapFile。所以下一步是访问文件。使用parts创建的目录名称失败,说它找不到data文件。回到谷歌,我发现为了访问MapFile我需要使用的部分:

天真地,我忽略了这HashPartioner一点,并期望这会找到我的条目,但没有运气。所以我的下一步是遍历读者并做一个get(..). 该解决方案确实有效,但速度极慢,因为文件由 128 个任务创建,导致 128 个part文件。

所以我调查了它的重要性,HashPartitioner发现它在内部使用它来识别要使用哪个阅读器,但似乎 Spark 没有使用相同的分区逻辑。所以我修改为:

rdd.partitionBy(new org.apache.spark.HashPartitioner(128)).sortByKey().saveAsNewAPIHadoopFile(....MapFileOutputFormat.class)

但同样 2HashPartioner不匹配。所以问题部分...

  • 有没有办法MapFiles有效地组合(因为这会忽略分区逻辑)?
  • MapFileOutputFormat.getReaders(new Path(file), new Configuration());很慢。我可以更有效地识别读者吗?
  • 我使用 MapR-FS 作为底层 DFS。这将使用相同的HashParitioner实现吗?
  • 有没有办法避免重新分区,或者应该对整个文件进行排序?(与在分区内排序相反)
  • 我也遇到了一个例外_SUCCESS/data does not exist。我需要手动删除这个文件吗?

任何有关此的链接将不胜感激。

PS。如果条目已排序,那么如何使用 HashPartitioner来定位正确的Reader?这意味着数据partsHash Partitioned然后按键排序的。所以我也尝试rdd.repartiotionAndSortWithinPartitions(new HashPartitioner(280))了,但再次没有任何运气。

0 投票
1 回答
696 浏览

mapreduce - Hive map-reduce 查询失败

我正在尝试运行我的第一个 Hive 查询,它可以启动 map-reduce 作业。我已按照“ http://doc.mapr.com/display/MapR/Hive ”中给出的所有步骤进行操作。

“web_log”表已被创建并且数据加载完成且没有错误。但是当尝试执行“SELECT web_log。FROM web_log WHERE web_log.url LIKE '%doc'*”时,我遇到了以下异常。

有人可以指导我吗?

0 投票
3 回答
11550 浏览

hadoop - 如何通过 Deliminator 拆分 Spark RDD 的行

我正在尝试将 Spark 中的数据拆分为Array[String]. 目前我已将文件加载到String.

> val csvFile = textFile("/input/spam.csv")

我想在分隔符上拆分,

0 投票
4 回答
4251 浏览

scala - Spark shell错误:错误SparkDeploySchedulerBackend:要求删除不存在的执行程序11

每当我在 mapr Sandbox 上启动 spark-shell 时,我都会不断收到此错误

请帮我解决这个错误。

0 投票
2 回答
632 浏览

hadoop - Platfora 和 Datameer 的发行版

我对安装 Platfora 和 Datameer 分析工具很感兴趣。我怀疑这两个工具的文档,我们看到现有的 Hadoop 发行版,它们给出了包括 CDH、HDP 和 MapR 在内的兼容性列表。但我想将这些安装在现有的普通 Hadoop 中。即我已经通过一一下载Apache Hadoop组件并准备集群来安装Hadoop。

这些工具在这种情况下会起作用吗?

0 投票
2 回答
9636 浏览

hadoop - MapR-DB 和 Hbase 的区别

我对 MapR 有点陌生,但我知道 hbase。我正在浏览其中一个视频,我发现 Mapr-DB 是 MapR 中的 NoSQL DB,它类似于 Hbase。除此之外,Hbase 还可以在 MapR 上运行。我对 MapR-Db 和 Hbase 感到困惑。它们之间的确切区别是什么?

何时使用 Mapr-DB,何时使用 Hbase?

基本上我有一个 java 代码可以在 MapR 上的 Hbase 中进行批量加载,现在如果我使用与 Apache hadoop 相同的代码,该代码会在这里工作吗?

请帮助我避免这种混乱。

0 投票
0 回答
55 浏览

hadoop - 安装 hadoop 的教程 分析 => 百万数据

我需要安装 hadoop 来分析数据、显示统计数据并从中开发应用程序。我需要知道我是否需要一台 windows/linux 机器?我需要多少个数据节点/名称节点?有这方面的教程吗?

更精确: 我必须分析包含呼叫信息(数百万或更多数据)的数据,并使用 hadoop 在界面(应用程序)中显示统计信息。所以开始我必须安装hadoop,但我需要知道我需要什么,有多少机器等。

0 投票
2 回答
651 浏览

hadoop - 错误 terasort.TeraSort: 输入路径不存在: maprfs:/user/user01/–DXmx1024m

通过修改参数运行terasort应用程序时,出现以下错误。

15/05/24 21:41:42 错误 terasort.TeraSort: 输入路径不存在: maprfs:/user/user01/–DXmx1024m

我为执行慢跑而运行的命令

如果我删除这些参数–DXmx1024m –Dmapred.reduce.tasks=2 -Dio.sort.mb=1,那么一切正常。

我认为我正面临以下错误,该错误发布在 jira 上,但适用于 windows https://issues.apache.org/jira/browse/HADOOP-8536