问题标签 [mapr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
docker - Docker - 从主机访问映射器 UI
我已经在 CentOS 机器上安装了 docker。现在我正在尝试在其上运行 MapR 沙箱。开始后我得到这个:
但我无法从与 CentOS 机器位于同一网络中的 windows 机器访问此 URL。
hadoop - 单节点集群的 MapR 安装失败
我指的是单节点集群的快速安装指南。为此,我为 MaprFS 使用了 20GB 存储文件,但在安装时,它给出了“无法找到磁盘:/maprfs/storagefile”。
这是我的配置文件。
下面是我得到的错误。
请在这里帮助我。
谢谢沙市
hadoop - 如何使用 Spark 创建 MapFile 并访问它?
我正在尝试从 Spark RDD 创建 MapFile,但找不到足够的信息。到目前为止,这是我的步骤:
我开始时,
rdd.saveAsNewAPIHadoopFile(....MapFileOutputFormat.class)
这引发了一个异常,因为MapFiles
必须对其进行排序。所以我修改为:
rdd.sortByKey().saveAsNewAPIHadoopFile(....MapFileOutputFormat.class)
效果很好,并且创建了我的 MapFile。所以下一步是访问文件。使用parts
创建的目录名称失败,说它找不到data
文件。回到谷歌,我发现为了访问MapFile
我需要使用的部分:
天真地,我忽略了这HashPartioner
一点,并期望这会找到我的条目,但没有运气。所以我的下一步是遍历读者并做一个get(..)
. 该解决方案确实有效,但速度极慢,因为文件由 128 个任务创建,导致 128 个part
文件。
所以我调查了它的重要性,HashPartitioner
发现它在内部使用它来识别要使用哪个阅读器,但似乎 Spark 没有使用相同的分区逻辑。所以我修改为:
rdd.partitionBy(new org.apache.spark.HashPartitioner(128)).sortByKey().saveAsNewAPIHadoopFile(....MapFileOutputFormat.class)
但同样 2HashPartioner
不匹配。所以问题部分...
- 有没有办法
MapFiles
有效地组合(因为这会忽略分区逻辑)? MapFileOutputFormat.getReaders(new Path(file), new Configuration());
很慢。我可以更有效地识别读者吗?- 我使用 MapR-FS 作为底层 DFS。这将使用相同的
HashParitioner
实现吗? - 有没有办法避免重新分区,或者应该对整个文件进行排序?(与在分区内排序相反)
- 我也遇到了一个例外
_SUCCESS/data does not exist
。我需要手动删除这个文件吗?
任何有关此的链接将不胜感激。
PS。如果条目已排序,那么如何使用 HashPartitioner
来定位正确的Reader
?这意味着数据parts
是Hash Partitioned
然后按键排序的。所以我也尝试rdd.repartiotionAndSortWithinPartitions(new HashPartitioner(280))
了,但再次没有任何运气。
mapreduce - Hive map-reduce 查询失败
我正在尝试运行我的第一个 Hive 查询,它可以启动 map-reduce 作业。我已按照“ http://doc.mapr.com/display/MapR/Hive ”中给出的所有步骤进行操作。
“web_log”表已被创建并且数据加载完成且没有错误。但是当尝试执行“SELECT web_log。FROM web_log WHERE web_log.url LIKE '%doc'*”时,我遇到了以下异常。
有人可以指导我吗?
hadoop - 如何通过 Deliminator 拆分 Spark RDD 的行
我正在尝试将 Spark 中的数据拆分为Array[String]
. 目前我已将文件加载到String
.
> val csvFile = textFile("/input/spam.csv")
我想在分隔符上拆分,
。
scala - Spark shell错误:错误SparkDeploySchedulerBackend:要求删除不存在的执行程序11
每当我在 mapr Sandbox 上启动 spark-shell 时,我都会不断收到此错误
请帮我解决这个错误。
hadoop - Platfora 和 Datameer 的发行版
我对安装 Platfora 和 Datameer 分析工具很感兴趣。我怀疑这两个工具的文档,我们看到现有的 Hadoop 发行版,它们给出了包括 CDH、HDP 和 MapR 在内的兼容性列表。但我想将这些安装在现有的普通 Hadoop 中。即我已经通过一一下载Apache Hadoop组件并准备集群来安装Hadoop。
这些工具在这种情况下会起作用吗?
hadoop - MapR-DB 和 Hbase 的区别
我对 MapR 有点陌生,但我知道 hbase。我正在浏览其中一个视频,我发现 Mapr-DB 是 MapR 中的 NoSQL DB,它类似于 Hbase。除此之外,Hbase 还可以在 MapR 上运行。我对 MapR-Db 和 Hbase 感到困惑。它们之间的确切区别是什么?
何时使用 Mapr-DB,何时使用 Hbase?
基本上我有一个 java 代码可以在 MapR 上的 Hbase 中进行批量加载,现在如果我使用与 Apache hadoop 相同的代码,该代码会在这里工作吗?
请帮助我避免这种混乱。
hadoop - 安装 hadoop 的教程 分析 => 百万数据
我需要安装 hadoop 来分析数据、显示统计数据并从中开发应用程序。我需要知道我是否需要一台 windows/linux 机器?我需要多少个数据节点/名称节点?有这方面的教程吗?
更精确: 我必须分析包含呼叫信息(数百万或更多数据)的数据,并使用 hadoop 在界面(应用程序)中显示统计信息。所以开始我必须安装hadoop,但我需要知道我需要什么,有多少机器等。
hadoop - 错误 terasort.TeraSort: 输入路径不存在: maprfs:/user/user01/–DXmx1024m
通过修改参数运行terasort
应用程序时,出现以下错误。
15/05/24 21:41:42 错误 terasort.TeraSort: 输入路径不存在: maprfs:/user/user01/–DXmx1024m
我为执行慢跑而运行的命令
如果我删除这些参数–DXmx1024m –Dmapred.reduce.tasks=2 -Dio.sort.mb=1
,那么一切正常。
我认为我正面临以下错误,该错误发布在 jira 上,但适用于 windows https://issues.apache.org/jira/browse/HADOOP-8536