问题标签 [analytics-for-apache-hdp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Bluemix Analytics for Apache Hadoop Big SQL - 如何访问日志以进行调试?
我在 Bluemix 中使用来自 Analytics for Apache Hadoop 的 Big SQL,并希望查看日志以进行调试(例如 map reduce 作业日志 - 通常在http://my-mapreduce-server.com:19888/jobhistory下可用,bigsql .log 来自 Big SQL 工作程序节点)。Bluemix 中有没有办法访问这些日志?
hadoop - 问:Analytics for Apache Hadoop 是否仍可在 Bluemix 上使用?(不在我的任何地理目录中)
我正在Bluemix 中寻找Analytics for Apache Hadoop 服务,以便为我正在从事的项目试用SystemT Text Analytics。它似乎不再可用了。是这种情况吗?是否有任何替代品或服务刚刚停止?
Bluemix 文档中提供了该服务的文档,但无论我选择什么地理位置,它都不会显示在目录中。
cluster-computing - 使用 Ambari 集群安装向导将新节点添加到集群
我最初使用 Ambari 集群安装向导成功安装了 2 个从节点(node01、node02)集群。
我的 Ambari 服务器正在其他节点(节点 00)上运行。
问题是在安装向导时我只给了 2 个从节点(因为它要求我输入目标主机)
所以我假设并给出了节点 01,节点 02(奴隶(比如说)),
最终默认节点 01 和节点 02 表现为主从节点(所有服务/组件由这 2 个节点(节点 01 和 02)共享,它成功并成为 2 节点集群
现在我的要求是要添加节点 00(Ambari 服务器正在运行)以使整个系统成为 3 节点集群,并希望使节点 00 成为主节点(如果有任何可能性),或者只需添加和运行少量服务在上面。
一件事所有服务都在节点 01 和节点 02 之间共享,所以需要为节点 00 添加哪些服务。
我应该将节点 00 作为数据节点/名称节点/秒吗?名称节点?如果是的话怎么办?
请帮我。
谢谢
hadoop - tpc-ds 不会将数据加载到表中(它会生成数据但卡在 loadinf 步骤中,只需从 24 个表中加载表 17,之后什么都不做)
我在 hive 基准测试中工作https://github.com/hortonworks/hive-testbench
我在将数据加载到表时遇到问题。面对 TPC-ds 数据生成器生成数据,然后尝试将它们加载到表中,但在 24 个表中的第 17 个停止工作并且什么也不做!我已经尝试了好几次,我花了很多时间来完成它,但看起来它卡在了这一步,没有任何反应。请指导我该怎么做?
由于缺少一些表,我无法运行我的查询。
我正在使用带有 8 核 28G ram 的 azure
hadoop - Unable to view logs for yarn-resource-manager
I tried with various command and I still do have issues in viewing the yarn logs and here are the steps that I followed to view logs
When I view the yarn logs it displays as
I also enabled the Log aggregation in the core-site.xml
file
I created the path for logs which does not exist but i am not able to see yarn logs
Is there any possible way of viewing the yarn logs ?
hadoop - Apache Ambari HDP 2.5 上的 Hive 安装问题
在 Apache Ambari 上安装 Hive 时出现以下错误。
你知道为什么会发生这个错误吗?让我知道你的担忧。
提前致谢。
apache-spark - 使用 Apache Spark 作业在 HDP 中创建 Hive 表
我在 Eclipse 中编写了以下 Scala 程序,用于从 HDFS 中的某个位置读取 csv 文件,然后将该数据保存到配置单元表中[我正在使用在本地机器上的 VMWare 上运行的 HDP2.4 沙箱]:
当我从我的 Eclipse 运行这个程序时;使用
运行方式 -> Scala 应用程序
选项:它在 Eclipse 控制台上显示以下结果:
加载数据中
数据加载
根
|-- empid: 字符串 (可为空 = true)
|-- empname: 字符串(可为空 = true)
|-- empage: 字符串(可为空=真)
创建表
17/06/29 13:27:08 信息 CatalystWriteSupport:使用 Catalyst 架构初始化 Parquet WriteSupport:{“type”:“struct”,“fields”:[{“name”:“empid”,“type”:“string” ,“可为空”:真,“元数据”:{}},{“名称”:“empname”,“类型”:“字符串”,“可为空”:真,“元数据”:{}},{“名称” : "empage", "type" : "string", "nullable" : true, "metadata" : { } } ] } 和对应的 Parquet 消息类型:message spark_schema { optional binary empid (UTF8); 可选的二进制 empname (UTF8);可选的二进制 empage (UTF8);}
表已创建
选择数据
+-----+--------+------+
|empid| 员工姓名|职位|
+-----+--------+------+
| 1201| 萨蒂什| 25|
| 1202| 克里希纳| 28|
| 1203| 阿米特| 39|
| 1204| 熟| 23|
| 1205| 普鲁德维| 23|
+-----+--------+------+
17/06/29 13:27:14 错误 ShutdownHookManager:删除 Spark 临时目录时出现异常:C:\Users\cb\AppData\Local\Temp\spark-c65aa16b-6448-434f-89dc-c318f0797e10 java.io.IOException:删除失败:C:\Users\cb\AppData\Local\Temp\spark-c65aa16b-6448-434f-89dc-c318f0797e10
这表明 csv 数据已从所需的 HDFS 位置 [存在于 HDP 中] 加载,并且名称为 tblEmployee2 的表也已在 hive 中创建,因为我可以在控制台中读取并查看结果。我什至可以通过运行任何 spark 作业从该表中读取数据来一次又一次地读取该表
但是,问题是当我通过腻子进入我的 HDP2.4 并尝试在蜂巢中查看此表时,
1) 我在那里看不到这张桌子。
2) 我正在考虑此代码将在 hive 中创建一个托管/内部表,因此 HDFS 中给定位置的 csv 文件也应该从其基本位置移动到 hive 元存储位置,这没有发生?
3)我还可以看到在我的 Eclipse 中创建了 metastore_db 文件夹,这是否意味着这个 tblEmployee2 正在我的本地/Windows 机器中创建?
4) 我该如何解决这个问题并要求我的代码在 hdp 中创建配置单元表?我在这里缺少任何配置吗?
5) 为什么我在执行过程中遇到最后一个错误?任何快速响应/指针将不胜感激。
更新在我添加后想了很多hiveContext.setConf("hive.metastore.uris","thrift://192.168.159.129:9083")
代码移动了一点,但开始出现一些与权限相关的问题。我现在可以在我的 VMWare 中的配置单元的默认数据库中看到这个表 [tblEmployee2],但它本身是使用 SparkSQL 完成的:
因此,我仍然无法使用 HiveContext,并且我上面提到的问题 2-5 仍然存在。
问候, 布佩什
curl - Livy:在纱线模式下运行火花作业
无法通过 Livy 在纱线(集群或客户端)模式下运行 Spark 作业,我可以使用 Livy 运行 Spark 作业,但这些作业正在本地模式下运行,并且在资源管理器中不可见。我想以纱线集群模式运行这些作业。
我正在使用 Hortonworks HDP 2.6.1 hadoop 发行版。HDP2.6.1 有两个版本的 spark(2.1.1 和 spark 1.6.3)和两个版本的 livy(1 和 2)。
我们有 Ambari 来查看/更改 conf 文件。
我们对以下文件进行了更改:-
- /usr/hdp/2.6.1.0-129/etc/livy/conf.dist/conf/livy.conf
- /usr/hdp/current/livy-server/conf/livy-env.sh
- /usr/hdp/2.6.1.0-129/spark/conf/spark-defaults.conf
在上述文件中添加了以下属性:-
- spark.master 纱线簇
- spark.submit.deployMode 集群
========数据=========
========卷曲命令=========
有人可以帮忙,我们需要在哪个配置文件中进行更改才能在纱线模式下运行火花作业?
hive - 如何在 ORC 分区 hive 表的中间添加一列,并且仍然能够查询具有新结构的旧分区文件
目前,我在 Prod 中有一个分区 ORC“托管”(错误地创建为内部优先)Hive 表,其中包含按年、月、日(~16GB 数据)分区的至少 100 天的数据。
这张表大约有160列。现在我的要求是在这张表的中间添加一列,并且仍然能够查询旧数据(分区文件)。如果新添加的列显示旧数据为空就可以了。
到目前为止我做了什么?
1)首先使用下面将表转换为外部以保留数据文件,然后再删除
2)删除并重新创建中间有新列的表,然后更改表以添加分区文件
但是我无法在娱乐之后阅读表格。我收到此错误消息
还有其他方法可以做到这一点吗?