问题标签 [hdp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
1067 浏览

hive - 如何在 Metastore 和 HiveServer2 中创建委托令牌?

我有 HDP3 kerberized 集群。

问题是 - 如何为没有 keytab 的用户创建委托令牌?

对于那个用户,我想从 Metastore 中检索信息并在 Hive 表上运行 SQL 查询。

属性hive.cluster.delegation.token.store.class等于org.apache.hadoop.hive.thrift.ZooKeeperTokenStore

Znodes/hive/cluster/delegationHIVESERVER2/tokens/hive/cluster/delegationMETASTORE/tokens是空的。

我找到了有关如何为 HDFS 生成 DT 的信息。

但是对于 Hive,只有关于如何获取该令牌的信息,这意味着该令牌已经存在。但是如何创建一个?

0 投票
4 回答
4767 浏览

apache-spark - 如何在不使用 HDP 3.1 中的仓库连接器的情况下将表从 spark 中写入 hive

当尝试在 HDP 3.1 上使用 spark 2.3 写入 Hive 表时,无需使用仓库连接器直接进入 hives 模式,使用:

失败:

但是一个:

火花与spark.sql("select * from foo.my_table_02").show作品就好了。现在去蜂巢/直线:

一个

返回

如何在不使用仓库连接器的情况下使用 spark 写入 hive,但仍然写入稍后可以被 hive 读取的同一个元存储?据我所知,外部表应该是可能的(你不是管理的,不是 ACID 不是事务的),但我不知道如何告诉saveAsTable如何处理这些。

编辑

相关问题:

可能是像https://github.com/qubole/spark-acid这样的解决方法,比如https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.1.4/integrating-hive/content/hive_hivewarehouseconnector_for_handling_apache_spark_data.html但是我不喜欢在我还没有看到任何大规模性能测试的情况下使用更多胶带的想法。此外,这意味着更改所有现有的 spark 作业。

事实上,无法将表保存到配置单元元存储,HDP 3.0报告了大型数据帧和仓库连接器的问题。

编辑

我刚刚找到https://community.cloudera.com/t5/Support-Questions/Spark-hive-warehouse-connector-not-loading-data-when-using/td-p/243613

和:

执行()与执行查询()

ExecuteQuery() 将始终使用 Hiveserver2-interactive/LLAP,因为它使用快速 ARROW 协议。当 jdbc URL 指向非 LLAP Hiveserver2 时使用它会产生错误。

Execute() 使用 JDBC 并且对 LLAP 没有这种依赖关系,但有一个内置限制,最多只能返回 1.000 条记录。但对于大多数查询(INSERT INTO ... SELECT、count、sum、average)来说,这不是问题。

但这不会扼杀 hive 和 spark 之间的任何高性能互操作性吗?特别是如果没有足够的 LLAP 节点可用于大规模 ETL。

事实上,这是真的。可以在https://github.com/hortonworks-spark/spark-llap/blob/26d164e62b45cfa1420d5d43cdef13d1d29bb877/src/main/java/com/hortonworks/spark/sql/hive/llap/HWConf.java#L39配置此设置,虽然我不确定增加这个值对性能的影响

0 投票
1 回答
767 浏览

apache-spark - 如何在 HDP 3.1 中作为外部在 hive 中写入(创建)表

默认

失败,因为它尝试写入内部/托管/事务表(请参阅如何在不使用 HDP 3.1 中的仓库连接器的情况下将表从 spark 写入配置单元)。

如何告诉 spark 不创建托管表,而是创建外部表?

0 投票
0 回答
234 浏览

python - 如何解决关于 - 服务器超过 3 分钟没有收到来自该主机的心跳的问题

我们正在使用蓝图来安装 ambari 集群(主机器 + 数据节点机器)

在蓝图安装过程中,我们看到集群中的一些机器丢失了心跳,从 ambari 中我们可以看到以下消息

我在谷歌搜索更棘手的问题

但我只发现了以下

一个建议是

更新 :

在文件 - /etc/ambari-server/conf/ambari.properties 中,然后重启 ambari 服务器

第二个建议是禁用证书verify=disable,然后重新启动ambari服务器

我不确定上述建议,或者这里有人可以带来正确的解决方案

0 投票
1 回答
164 浏览

json - ambari 蓝图安装失败 - 配置类型未在堆栈中定义

我无法注册蓝图来安装 Ambari 多节点集群。

我使用了以下蓝图:

我收到以下错误,

AmbariHDP版本是:

在蓝图 jaon 文件中,我们有

但不清楚 API 失败的原因:

这是否意味着 stakambari 2.7.4不包括 - logsearch?

0 投票
1 回答
702 浏览

hadoop - Druid hadoop 批处理主管:无法将类型 id 'index.hadoop' 解析为 SupervisorSpec 的子项

我正在尝试启动一个 Druid 主管来摄取存储到 hadoop 中的 PArqurt 数据。但是我收到以下错误,我找不到任何有关它的信息:

“错误”:“无法将类型 id 'index_hadoop' 解析为 [简单类型,类 io.druid.indexing.overlord.supervisor.SupervisorSpec] 的子类型:已知类型 ids = [NoopSupervisorSpec, kafka]\n 在 [来源: (org.eclipse.jetty.server.HttpInputOverHTTP)

我试图修复它在扩展加载列表中加载 hadoop 深度存储、parquet 和 avro 扩展,但这不起作用。

这是我的主管 JSON 配置:

0 投票
2 回答
1168 浏览

hive - Hive 仅插入事务表

使用 Hive 仅插入事务表的具体好处是什么?大多数文档只是表明如果您不需要删除或更改功能,则创建此表。这会加快处理速度吗?减少开销?

0 投票
1 回答
87 浏览

hive - 您可以控制 HortonWorks HDP 3.4.1 托管表的 hdfs 文件大小吗?

目前正在测试一个集群,当使用"CREATE TABLE AS"生成的托管表时,最终是一个文件 ~ 1.2 GB,而创建查询的基本文件有许多小文件。SELECT 部分运行速度很快,但结果是运行 2 个 reducer 来创建一个文件,这需要 75% 的运行时间。

附加测试:

1) 如果使用 using "CREATE EXTERNAL TABLE AS",查询运行速度非常快,并且不涉及合并文件步骤。

2) 此外,在 HDP 3.0.1 版本中似乎不会发生合并。

0 投票
1 回答
65 浏览

sql - Hdp、Hive、横向视图和空:消失的行

由于从 hdp 3.1.0 升级到 3.1.4,我在 Hive 中遇到了一些我不明白的问题。请注意,我只使用 ORC 事务表。

例如这个查询:

它在升级之前完美运行。

现在,即使 CTE 返回一定数量的行,使用横向视图只会从结果集中删除行,没有任何错误,而 CTE 之外没有额外的 where 子句(在我的实际示例中,查询返回 66 行没有侧视图,但只有 19 个)。

就我而言,我有:

  • select count(*)给我66行
  • 当添加静态字符串的横向视图时,我只得到 19 行。

我尝试了很多变化:

  • 如果我用静态 CTE ( ) 替换事件表,select stack(1, ...)我会得到我期望的结果
  • 如果我删除横向视图,我有我期望的行数(只要我不使用不同)
  • 如果我创建并使用临时表而不是 CTE,则结果不会改变。
  • 如果我将json_tuple(cte.json, 'customfield')选择部分放在 CTE 之外(没有其他内容,因为它无效),没有lateral view,我有预期的行数,
  • 如果我get_json_object在 CTE 之外的选择部分中使用(并且没有侧视图),我会得到预期的结果。
  • 当然,配置单元(服务器或元存储)日志中没有任何内容。
  • 附带说明一下,自从升级以来,一个merge语句[不断生成重复项][1],而之前它工作得很好。

另一个非常令人惊讶的是,在 CTE 内部有一个 if 语句,例如:if(is_deleted is null, 'true', 'false'). 如果我替换应该完全有效的is nullwith ,CTE 不会返回任何行。is not distinct from null

我完全不知所措,我不知道为什么会发生这种情况,也不知道我怎么能相信蜂巢。 

我无法通过生成手动数据来复制错误,因此我无法给出(不)工作示例。

0 投票
1 回答
890 浏览

hadoop - hdp 3.1.0.0 安装使用 ambari2.7.4.0 centOS 7

使用 ambari 2.7.4 安装 HDP-3.1.0.0 时出现以下错误。你能帮我弄清楚这个问题吗?我在 yum.conf 中使用代理连接到互联网,并且 ambari-server 以 root 用户运行。

==============

============= 我能够在服务器上运行命令“/usr/bin/hdp-select”时获得输出