问题标签 [mapr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
html - 如何为 Hadoop 自定义 Hue
我将 web UI Hue 与 Hadoop 一起使用,目的是让用户能够浏览和下载数据。但是,我不想要 Hue 的所有功能,我们不需要提供编写查询、浏览表或更改文件系统的功能。因此,我想对 Hue UI 进行更改以删除不必要的选项。
我的问题是在哪里可以找到 Hue 用于提供内容的文件(即 HTML、CSS、JS)。我在 Hue 安装目录中尝试了“find .-name *.html”,但找不到任何东西。我正在使用 MapR Hadoop,安装目录位于 /opt/mapr/hue/hue-3.6.0。有谁知道我在哪里可以找到我需要编辑以自定义 Hue 的文件,或者我如何能够找到它们?
hadoop - 纱线模式下的Spark RDD映射不允许访问变量?
我在 mapr 集群上安装了全新的 spark 1.2.1,在测试它时,我发现它在本地模式下运行良好,但在 yarn 模式下,它似乎无法访问变量,如果广播也无法访问。准确的说是下面的测试代码
在本地模式下工作,但在纱线中失败。更准确地说,两种方法transform2
和transformx2
都失败了,如果--master local[8]
.
我正在用 sbt 编译它并用提交工具发送
知道发生了什么吗?失败消息只是声称在它应该访问变量的地方有一个 java 空指针异常。还有其他方法可以在 RDD 映射中传递变量吗?
java - Apache Spark Streaming 和 Apache Flume 集成
我正在尝试按照本指南集成 Apache Spark Streaming 和 Apache Flume 。我正在尝试在 MapR Sandbox 中进行设置。
当我提交示例时:JavaFlumeEventCount,一切正常,它计算所有事件。我使用一个终端启动 Spark 作业,使用另一个终端启动 Flume。
当我尝试在自己的项目中使用示例代码并创建一个 jar 时,它运行良好,但未计算事件,并且它在 Flume 日志中生成以下异常:
我自己的项目有以下pom.xml:
为什么它不起作用?
java - java.lang.IllegalArgumentException:没有名为默认的队列
我正在尝试将数据加载到 pig 并将相同的数据转储到控制台。我使用以下命令在 Cloudera 沙箱中没有任何错误。
它将所有数据转储到 sampledata 文件中。
尝试使用以下命令在 MapR 集群中执行相同操作。
收到以下错误。
请提供任何帮助。
提前致谢。
migration - 从 HDP 迁移到 MapR
我对 MapR Hbase 有点陌生,但我曾与 Hbase 和 HDP/Cloudera 一起工作过。我们在 HDP 中有 hbase 集群,我们计划将 Hbase 数据迁移到 MapR Hbase 集群。
我可以在这里采取什么合适的方法?(此时停机对我们来说不是问题。)
我们应该使用导出/导入实用程序、可复制命令等吗?
hadoop - 无法访问在 mapr 沙箱 VM 中运行的 hdfs 文件系统
我刚刚安装了在 virtualbox 中运行的 mapr 沙盒虚拟机。VM 使用“NAT”网络模式设置,端口转发到我的 Mac (OSX 10.10)。由于端口被转发,我猜我应该能够访问“localhost”上的 hdfs。
现在我正在尝试列出 vm 上 hdfs 的内容:
我还尝试了 127.0.0.1、sudo 和端口:5660,但没有成功。
有任何想法吗?
apache - 分布式模式下的 Apache Drill
我开始探索演练,以满足我们在半结构化数据上运行 SQL 的要求。我已经用 zookeeper 设置了一个 4node 钻集群。对它的实际工作原理有几个问题,
当我使用 dfs(本地文件系统)以分布式模式运行 Drill 时,我在其中一个节点(比如 n1)上有一个 1GB 的 Json 文件。我可以通过从任何节点(n1、n2、n3、n4)启动 sqlline 来运行查询,inspire 只有在 n1 上有日期。我的问题是
一个。查询是否在所有节点上执行?即,Drill 会通过将数据分发到其他节点 n2、n3n4 来并行化查询执行吗?
湾。如果否,通过在所有节点 n2、n3、n4 上复制相同的文件将有助于利用 Drill 的 MPP 架构?
file - hadoop 写入文件并放入分布式缓存
我需要根据 hadoop job.properties 中的内容创建一个动态文件,然后将其放入分布式缓存中。
当我创建文件时,我看到它是使用“/tmp”路径创建的。
我创建了一个符号名称并在缓存中引用此文件。现在,当我尝试读取 Dis 中的文件时。缓存我无法访问它。我收到由以下原因引起的错误:java.io.FileNotFoundException:请求的文件 /tmp/myfile6425152127496245866.txt 不存在。
您能否告诉我是否需要在创建文件时指定路径,并在访问/读取文件时使用该路径。
我只需要文件在作业运行之前可用。
java - 让 Spring-XD 和 hdfs sink 为 maprfs 工作
这是一个关于spring-xd release 1.0.1 与maprfs 一起工作的问题,官方尚不支持。我仍然想让它工作。
所以这就是我们所做的:
1) 调整 xd-shell 和 xd-worker 和 xd-singlenode shell 脚本接受参数--hadoopDistro mapr
2) 将库添加到新目录 $XD_HOME/lib/mapr
3)运行bin/xd-singlenode --hadoopDistro mapr
和shell/bin/xd-shell --hadoopDistro mapr
。
通过 创建和部署流时stream create foo --definition "time | hdfs" --deploy
,数据将写入 maprfs 上的文件 tmp/xd/foo/foo-1.txt.tmp。然而,在取消部署流时,会出现以下异常:
我看了一下OutputStoreObjectSupport.renameFile()
函数。当 hdfs 上的文件完成后,此方法会尝试将文件 /xd/foo/foo-1.txt.tmp 重命名为 xd/foo/foo1.txt。这是相关代码:
当目标文件在 hdfs 上不存在时,maprfs 在fs.delete(toPath, false)
被调用时似乎会抛出异常。然而,在这种情况下抛出异常是没有意义的。我假设其他文件系统实现的行为不同,但这是我仍然需要验证的一点。不幸的是,我找不到 MapRFileSystem.java 的源代码。这是封闭源吗?这将有助于我更好地理解这个问题。有没有人从 spring-xd 写到 maprfs 的经验?或者使用 spring-data-hadoop 重命名 maprfs 上的文件?
编辑
我设法通过一个简单的测试用例(见下文)在 spring XD 之外重现了这个问题。请注意,仅当设置了 inWritingSuffix 或 inWritingPrefix 时才会引发此异常。否则 spring-hadoop 不会尝试重命名文件。所以这对我来说仍然是某种令人不满意的解决方法:不要使用 inWritingPrefixes 和 inWritingSuffixes。