问题标签 [mapr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 通过带有 TimeStamp 数据类型的 HCatalog 问题将 Hive 与 Pig 一起使用
在我的开发框中,我有MapR 3.0.2
, Hive 0.11
, HCatLog 0.4.1
& Pig 0.12
。我使用标准查询从( )HCatlog
读取和写入Hive
表,Pig
Pig Latin
我的Hive
表包含TIMTESTAMP
数据类型(几列),因此在此语句之后立即GRUNT
出现错误
有一个类似的查询:类型转换猪 hcatalog。
我无法更改Hive
表的数据类型。此外,我无法将这些工具中的任何一个更改或升级到较新的版本(客户端策略约束)。如何将它转换为字符串或任何支持的数据类型,以便在&HCatalog
之间传递它,我可以继续进一步?Pig
Hive
python - 如何确定用于 Python 的 HDFS 文件的位置?
我有一个系统,它使用 Celery 跨计算集群运行 Python 任务来管理队列。这些任务对存储在 MapR-FS 中的数据进行操作(它公开了 Hadoop HFDS API,因此适用于 Hadoop HDFS 的技术应该适用于 MapR-FS)。
我希望能够确定存储在 MapR-FS 中的文件的位置,并分配任务在对文件具有本地访问权限的特定集群节点上运行。
这可能吗?
hbase - 使用 Java 连接到 Hbase Mapr
您好我正在运行 hbase VMWare 沙箱 MapR-Sandbox-For-Hadoop-3.1.0_VM。我没有对沙箱进行任何更改。我可以通过浏览器访问控制面板。在另一个 linux VM 上,我安装了 eclipse 和 hbase 客户端。我有一个 java 程序,我想在其中创建一个 hbase 表,但我无法连接。请帮忙
正如您在下面看到的,我收到一个错误
错误 client.HConnectionManager$HConnectionImplementation:检查“zookeeper.znode.parent”中配置的值。可能与主服务器中配置的不匹配。
接着
timesorg.apache.hadoop.hbase.MasterNotRunningException:重试 1 次
(请参阅下面的完整堆栈跟踪)。
我的应用程序使用
POM 包括
堆栈跟踪
hadoop - 如何避免填满节点上的hadoop日志?
当我们的 Cascading 作业遇到数据错误时,它们会抛出各种异常……这些异常最终会出现在日志中,如果日志填满,集群就会停止工作。我们是否有任何配置文件要编辑/配置以避免这种情况?
我们正在使用 MapR 3.1.0,我们正在寻找一种方法来限制日志使用(syslogs/userlogs),不使用集中日志记录,不调整日志记录级别,并且我们不太关心它是否保留前 N 个字节,或者最后 N 个字节的日志和不和谐仍然是一部分。
我们并不真正关心日志,我们只需要第一个(或最后一个)Megs 就可以找出问题所在。我们不想使用集中式日志记录,因为我们真的不想保留日志/不在乎花费复制它们的性能开销。另外,如果我错了,请纠正我:user_log.retain-size,在使用 JVM 重用时出现问题。
任何线索/答案将不胜感激!
谢谢,
斯里尼瓦斯
hadoop - 如何计算 Hadoop MapReduce 作业生成的临时数据
对于 MapReduce 作业生成的临时数据应保留未使用的 HDFS 空间量,是否有通用公式或最佳实践估计?这对于 Cloudera 和 MapR 等不同供应商有何变化?当我调整 Pig 脚本时,我有一些作业将我的集群从 20GB 增加到 60GB 并再次返回用于小型测试作业。我问这个问题是为了集群规划。
影响这一决定的因素是什么?我假设 reducer 的数量在生成的临时数据量、工作的特殊性中起作用(例如,如果我有一个包含 20 条语句的 Pig 脚本,我注意到临时数据没有被删除直到所有 20 条语句都已执行;如果我想最小化临时数据,我应该将 20 条语句分成 3 个脚本文件并连续运行),以及其他因素。
hadoop - 安装 Mapr 时出错
嗨,我正在尝试在 ubuntu 12.04 上精确安装 MapR,但面临一些问题。我按照下面的链接进行安装
我遵循了链接中提到的所有步骤下面是我得到的错误
请帮忙
java - 用于 MapR/Hadoop/Hive 的类路径
我正在尝试为 hadoop 编译一些 java 代码,并且需要知道我需要指定什么类路径。对于 cloudera,我在下面使用它,但我在 MapR 安装中使用什么?令人惊讶的是,我只能找到如何在 google 中设置类路径,而不是设置它的内容。
hbase - 用于 MapR 的 Talend tHBASEConnection 和 tHBaseInput
我可以访问 MapR Hadoop 集群的边缘节点。我有一个名为 /app/SubscriptionBillingPlatform/Matthew 的 HBase 表,其中包含一些假数据。在 hbase shell 中对其进行扫描会导致:
我有一个非常简单的 Talend 作业,它应该扫描表并记录每一行:
这是 tHBaseConnection 的配置。我从 /opt/mapr/hbase/hbase-0.94.13/conf/hbase-site.xml 文件中获得了 zookeeper 仲裁和客户端端口:
这是 tHBaseInput 的配置:
但是,当我在构建/导出作业并在边缘节点上运行它之后对 jar 文件进行 SCP 处理时,我收到以下错误:
当我告诉系统管理员这件事时,他们不知道 Talend 是什么,他们告诉我 MapR 不像 Cloudera 那样使用 HRegionServers,并且认为我的 Talend 配置是错误的。
有任何想法吗?
hbase - 如何从 Java 客户端列出所有 HBase M7 表
我可以使用命令列出 HbaseM7 表 -
hbase>list '/mapr/cluster/tables/'
但是,当我尝试使用 HBaseManager 列出表时,它不会锻炼.. 代码片段 Configuration conf =//set all m7 cluster; HBaseAdmin 管理员 = 新 HBaseAdmin(conf); HTableDescriptor[] 表 = admin.listTables()
有什么方法可以将表格位置传递给 listTables() 函数,或者可能是我必须设置的一些属性?
pagination - 使用 HBase 反向分页
我正在研究 hbase 表分页。我需要实现的功能是,UI 分页表应该具有下一个/前进和后退/后退功能。
我使用 PageFilter 实现了前进选项,但对于后退,我需要将行(20)从结束键获取到最近并向后移动。例如。向后获取所有记录 1000 - 980。
我在 hbase 源代码中找不到任何满足我要求的东西。知道我们如何实现它吗???
PS:我的row key是多个字段和数据大小TB的组合键。