问题标签 [mapr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 在级联中使用 TextLine 加载极长的行
我在 Cascading 中使用 TextLine 来加载 Cascading 中具有非常大行的文件。这些行很长——平均大约 30Mb,有些更长。当我在本地运行作业以对其进行测试时,它运行良好,但是当我在集群上运行它时,它在经过一段时间的密集处理后失败。它给出了如下错误:
它有时也会抱怨陈旧的文件句柄。它试图读取的文件肯定在那里。有人可以帮我吗?
hadoop - 在 centos 上安装 openssh
我正在尝试在 centos 上安装 sshpass,因为我想在我们的系统上安装 MapR。
我遵循这里给出的指导方针:http: //doc.mapr.com/display/MapR/Quick+Installation+Guide
我收到以下问题:
如果有人可以帮助我了解从哪里获得 sshpass,那就太好了。
提前致谢
hadoop - Chef 管理 Hadoop 配置/服务集群
我正在尝试开发厨师食谱来部署和管理 Hadoop 集群(特别是 MapR)。
据我了解,Chef 是一个以自动化方式安装 hadoop 集群的好工具。但我不确定 Chef 如何在安装后帮助管理/更改 Hadoop 集群的配置,以及能否将集群构建到集群完全关闭的状态(在灾难恢复的情况下)。
hadoop - 如何有条件地调度 Hadoop 作业?
我对 Hadoop 非常陌生,尤其是对 Hadoop 作业调度。这是我想要做的。
我有 2 个流程,每个流程都有一个 Hadoop 作业。我可以自由地将这些流程放在同一个项目或不同的项目中。我不希望 Hadoop 作业在集群上同时运行,但我也想确保它们交替运行。
例如 flow_1(使用 hadoop_job_1)运行并完成 -> flow_2(使用 hadoop_job_2)运行并完成 -> flow_1(使用 hadoop_job_1)运行并完成等等。
当然,我也想优雅地处理特殊情况。例如 flow_1 完成了,但是 flow_2 还没有准备好,那么如果 flow_1 准备好了,它就有机会再次运行,如果 flow_1 失败,flow_2 仍然可以继续运行,等等。
我想知道我可以探索哪些调度程序能够做到这一点。
我们正在使用 MapR。
谢谢
hadoop - MapR 分发中使用的容器架构是什么?
MapR 带有一个不同于 HDFS 方法的新架构(容器架构)。有什么不同?这是如何存储数据的?有什么优点和缺点?
apache-pig - 向 Mapr 纱线框架提交猪作业(MRv1 模式)
如何将猪作业提交到 Mapr 纱线框架。需要更改任何属性文件吗?
我是否必须更改在 MRv1 模式下运行的 Pig 脚本?
hadoop - Hadoop Hive 查询优化
我有一个按日期分区的表,格式为 yyyyMMdd。如果我做一个这样的简单查询:
然后它将扫描3天的数据(今天是26号)。但是我希望我的查询总是查看过去 3 天,所以我这样写
问题是现在它扫描每个分区。有没有办法让它预先计算大于之后的查询部分?
hadoop - 查找 HDFS 正在侦听的端口号
我想访问具有完全限定名称的 hdfs,例如:
我也可以简单地访问 hdfs
但是,我正在编写应该适用于不同发行版(HDP、Cloudera、MapR...等)的测试用例,其中涉及使用限定名称访问 hdfs 文件。
我知道hdfs://machine-name:8020
在 core-site.xml 中定义为fs.default.name
. 但这似乎在不同的发行版上有所不同。例如,hdfs 是 MapR 上的 maprfs。IBM BigInsights甚至没有core-site.xml
.$HADOOP_HOME/conf
hadoop 似乎没有办法告诉我fs.default.name
它的命令行选项定义了什么。
如何fs.default.name
从命令行可靠地获取定义的值?
测试将始终在 namenode 上运行,因此机器名称很容易。但是获取端口号(8020)有点困难。我尝试了 lsof、netstat.. 但仍然找不到可靠的方法。
solr - 如何配置 Sentry 以使用 Apache Solr
我从 github ( https://github.com/apache/lucene-solr )下载了 Apache Solr 。使用 ANT 构建项目并将 .war 文件部署到 TOMCAT7。一切都很成功。但现在我想在 Apache Solr 中使用 Sentry 进行授权。我阅读了很多文档,但对我来说并没有澄清。
我不明白这两个产品如何具有依赖关系以及如何开始将 Sentry 与 Solr 一起使用
hbase - MAPR M7 hbase 集群未填充 .META。桌子
我正在寻找 MAPR M7 EMR 集群没有填充 HBASE .META 的原因。桌子。我也尝试使用 hbck 命令修复,但仍然没有成功。任何帮助都将受到高度评价