问题标签 [mapr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1258 浏览

html - 如何为 Hadoop 自定义 Hue

我将 web UI Hue 与 Hadoop 一起使用,目的是让用户能够浏览和下载数据。但是,我不想要 Hue 的所有功能,我们不需要提供编写查询、浏览表或更改文件系统的功能。因此,我想对 Hue UI 进行更改以删除不必要的选项。

我的问题是在哪里可以找到 Hue 用于提供内容的文件(即 HTML、CSS、JS)。我在 Hue 安装目录中尝试了“find .-name *.html”,但找不到任何东西。我正在使用 MapR Hadoop,安装目录位于 /opt/mapr/hue/hue-3.6.0。有谁知道我在哪里可以找到我需要编辑以自定义 Hue 的文件,或者我如何能够找到它们?

0 投票
3 回答
1046 浏览

hadoop - 纱线模式下的Spark RDD映射不允许访问变量?

我在 mapr 集群上安装了全新的 spark 1.2.1,在测试它时,我发现它在本地模式下运行良好,但在 yarn 模式下,它似乎无法访问变量,如果广播也无法访问。准确的说是下面的测试代码

在本地模式下工作,但在纱线中失败。更准确地说,两种方法transform2transformx2都失败了,如果--master local[8].

我正在用 sbt 编译它并用提交工具发送

知道发生了什么吗?失败消息只是声称在它应该访问变量的地方有一个 java 空指针异常。还有其他方法可以在 RDD 映射中传递变量吗?

0 投票
1 回答
292 浏览

linux - 如何通过 unix utils 或 nmon 使用 hadoop fs 获取磁盘信息?

我已经安装了带有mfs的 mapr(基于 hadoop fs)和一些使用dfdfisknmon日志文件从文件系统获取信息的脚本。

现在我想从设备/dev/sdb1获取信息,mapr 将其用作 hadoop fs。我知道我可以使用类似的东西

但我希望有另一种使用方式,总大小等。

我无法挂载 /dev/sdb1 ,因为它正在被某个进程使用。并且找不到分区可能已经挂载的路径。

0 投票
1 回答
1242 浏览

java - Apache Spark Streaming 和 Apache Flume 集成

我正在尝试按照本指南集成 Apache Spark Streaming 和 Apache Flume 。我正在尝试在 MapR Sandbox 中进行设置。

当我提交示例时:JavaFlumeEventCount,一切正常,它计算所有事件。我使用一个终端启动 Spark 作业,使用另一个终端启动 Flume。

当我尝试在自己的项目中使用示例代码并创建一个 jar 时,它运行良好,但未计算事件,并且它在 Flume 日志中生成以下异常:

我自己的项目有以下pom.xml:

为什么它不起作用?

0 投票
1 回答
491 浏览

java - java.lang.IllegalArgumentException:没有名为默认的队列

我正在尝试将数据加载到 pig 并将相同的数据转储到控制台。我使用以下命令在 Cloudera 沙箱中没有任何错误。

它将所有数据转储到 sampledata 文件中。

尝试使用以下命令在 MapR 集群中执行相同操作。

收到以下错误。

请提供任何帮助。

提前致谢。

0 投票
1 回答
159 浏览

migration - 从 HDP 迁移到 MapR

我对 MapR Hbase 有点陌生,但我曾与 Hbase 和 HDP/Cloudera 一起工作过。我们在 HDP 中有 hbase 集群,我们计划将 Hbase 数据迁移到 MapR Hbase 集群。

我可以在这里采取什么合适的方法?(此时停机对我们来说不是问题。)

我们应该使用导出/导入实用程序、可复制命令等吗?

0 投票
2 回答
3165 浏览

hadoop - 无法访问在 mapr 沙箱 VM 中运行的 hdfs 文件系统

我刚刚安装了在 virtualbox 中运行的 mapr 沙盒虚拟机。VM 使用“NAT”网络模式设置,端口转发到我的 Mac (OSX 10.10)。由于端口被转发,我猜我应该能够访问“localhost”上的 hdfs。

现在我正在尝试列出 vm 上 hdfs 的内容:

我还尝试了 127.0.0.1、sudo 和端口:5660,但没有成功。

有任何想法吗?

0 投票
2 回答
594 浏览

apache - 分布式模式下的 Apache Drill

我开始探索演练,以满足我们在半结构化数据上运行 SQL 的要求。我已经用 zookeeper 设置了一个 4node 钻集群。对它的实际工作原理有几个问题,

  1. 当我使用 dfs(本地文件系统)以分布式模式运行 Drill 时,我在其中一个节点(比如 n1)上有一个 1GB 的 Json 文件。我可以通过从任何节点(n1、n2、n3、n4)启动 sqlline 来运行查询,inspire 只有在 n1 上有日期。我的问题是

    一个。查询是否在所有节点上执行?即,Drill 会通过将数据分发到其他节点 n2、n3n4 来并行化查询执行吗?

    湾。如果否,通过在所有节点 n2、n3、n4 上复制相同的文件将有助于利用 Drill 的 MPP 架构?

0 投票
1 回答
246 浏览

file - hadoop 写入文件并放入分布式缓存

我需要根据 hadoop job.properties 中的内容创建一个动态文件,然后将其放入分布式缓存中。

当我创建文件时,我看到它是使用“/tmp”路径创建的。

我创建了一个符号名称并在缓存中引用此文件。现在,当我尝试读取 Dis 中的文件时。缓存我无法访问它。我收到由以下原因引起的错误:java.io.FileNotFoundException:请求的文件 /tmp/myfile6425152127496245866.txt 不存在。

您能否告诉我是否需要在创建文件时指定路径,并在访问/读取文件时使用该路径。

我只需要文件在作业运行之前可用。

0 投票
1 回答
359 浏览

java - 让 Spring-XD 和 hdfs sink 为 maprfs 工作

这是一个关于spring-xd release 1.0.1 与maprfs 一起工作的问题,官方尚不支持。我仍然想让它工作。

所以这就是我们所做的:

1) 调整 xd-shell 和 xd-worker 和 xd-singlenode shell 脚本接受参数--hadoopDistro mapr

2) 将库添加到新目录 $XD_HOME/lib/mapr

3)运行bin/xd-singlenode --hadoopDistro maprshell/bin/xd-shell --hadoopDistro mapr

通过 创建和部署流时stream create foo --definition "time | hdfs" --deploy,数据将写入 maprfs 上的文件 tmp/xd/foo/foo-1.txt.tmp。然而,在取消部署流时,会出现以下异常:

我看了一下OutputStoreObjectSupport.renameFile()函数。当 hdfs 上的文件完成后,此方法会尝试将文件 /xd/foo/foo-1.txt.tmp 重命名为 xd/foo/foo1.txt。这是相关代码:

当目标文件在 hdfs 上不存在时,maprfs 在fs.delete(toPath, false)被调用时似乎会抛出异常。然而,在这种情况下抛出异常是没有意义的。我假设其他文件系统实现的行为不同,但这是我仍然需要验证的一点。不幸的是,我找不到 MapRFileSystem.java 的源代码。这是封闭源吗?这将有助于我更好地理解这个问题。有没有人从 spring-xd 写到 maprfs 的经验?或者使用 spring-data-hadoop 重命名 maprfs 上的文件?

编辑

我设法通过一个简单的测试用例(见下文)在 spring XD 之外重现了这个问题。请注意,仅当设置了 inWritingSuffix 或 inWritingPrefix 时才会引发此异常。否则 spring-hadoop 不会尝试重命名文件。所以这对我来说仍然是某种令人不满意的解决方法:不要使用 inWritingPrefixes 和 inWritingSuffixes。