问题标签 [hortonworks-sandbox]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hive - 无法通过 knox 连接到 hive 服务器
我正在使用下面提到的连接 URL 使用直线连接到配置单元服务器。
!connect jdbc:hive2://sandbox.hortonworks.com:21000/default;ssl=true;sslTrustStore=/var/lib/knox/data-2.3.2.0-2950/security/keystores/gateway.jks;trustStorePassword=knox ?hive.server2.transport.mode=http;httpPath=gateway/default/hive
连接后,我收到下面提到的错误。
无法使用 JDBC Uri 打开客户端传输:jdbc:hive2://sandbox.hortonworks.com:21000/default;ssl=true;sslTrustStore=/var/lib/knox/data-2.3.2.0-2950/security/keystores/ gateway.jks;trustStorePassword=knox?hive.server2.transport.mode=http;httpPath=gateway/default/hive: 无法创建到 jdbc:hive2://sandbox.hortonworks.com:21000/default;ssl= 的 http 连接true;sslTrustStore=/var/lib/knox/data-2.3.2.0-2950/security/keystores/gateway.jks;trustStorePassword=knox?hive.server2.transport.mode=http;httpPath=gateway/default/hive。javax.net.ssl.SSLException:无法识别的 SSL 消息,明文连接?(状态=08S01,代码=0)
请帮我解决这个错误。
hadoop - Hortonworks VM - Hadoop 批量上传?
有没有办法在运行 CentOS 的 Hortonworks VM 下批量上传文件到 Hadoop?我看到我可以使用 Ambari - Sandbox 的 HDFS 文件工具,但它只允许一个接一个地上传。显然您过去可以使用Redgate 的 HDFS Explorer,但它不再可用。Hadoop 是用来处理大数据的,但是必须一个一个地上传所有文件是荒谬的......谢谢!
hbase - 从 Java API 连接时出现 Hbase 错误
当我执行 JAVA API 代码以使用以下代码连接 Hbase 表时出现以下错误
Java 代码
错误
22 年 6 月 7 日 10:08:02 错误 zookeeper.ZooKeeperNodeTracker:检查“zookeeper.znode.parent”中配置的值。可能与主服务器中配置的不匹配。
java.lang.IllegalArgumentException:检查“zookeeper.znode.parent”中配置的值。可能与主服务器中配置的不匹配。
在 org.apache.hadoop.hbase.zookeeper.RootRegionTracker.waitRootRegionLocation(RootRegionTracker.java:81)
在 org.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation.locateRegion(HConnectionManager.java:849)
在 org.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation.locateRegionInMeta(HConnectionManager.java:962) 在 org.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation.locateRegion(HConnectionManager.java:860)
在 org.apache .hadoop.hbase.client.HConnectionManager$HConnectionImplementation.locateRegionInMeta(HConnectionManager.java:962) 在 org.apache.hadoop.hbase.client.HConnectionManager$HConnectionImplementation.locateRegion(HConnectionManager.java:864)
在 org.apache.hadoop.hbase .client.HConnectionManager$HConnectionImplementation.locateRegion(HConnectionManager.java:821)
在 org.apache.hadoop.hbase.client.HTable.finishSetup(HTable.java:234)
在 org.apache.hadoop.hbase.client.HTable.(HTable.java:174)
在 org.apache.hadoop.hbase.client.HTable.(HTable.java:133)
在 com.HBase.BulkLoad.HbaseBulkLoadDriver.run (HbaseBulkLoadDriver.java:71)
在 org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:76)
在 com.HBase.BulkLoad.HbaseBulkLoadDriver.main(HbaseBulkLoadDriver.java:34) 在 sun.reflect.NativeMethodAccessorImpl
。
在 sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
在 sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
在 java.lang.reflect.Method.invoke(Method.java:43 ) 的invoke0(Native Method) 606)
在 org.apache.hadoop.util.RunJar.run(RunJar.java:221)
在 org.apache.hadoop.util.RunJar.main(RunJar.java:136)
hortonworks-data-platform - 重新启动沙盒 VM 时删除 Nifi 流
我将我的 nifi 从 0.6.0(与 Hortonworks HDF 一起提供的版本)升级到最新版本 0.7.0。我按照此处提到的升级步骤进行操作。https://cwiki.apache.org/confluence/display/NIFI/Upgrading+NiFi
但是,每当我重新启动 HDP VM 时,我的 nifi 流就消失了,我必须重做它。我注意到每次重新启动 VM 时 ../configuration_resources/flow.xml.gz 中的文件大小都会变为 0。我错过了升级的任何内容吗?
hortonworks-data-platform - ConvertJSONToSql 正在寻找 IS_AUTOINCREMENT
我使用 ConvertJSONToSql 将每个 Json 流文件转换为 sql,但是我不断收到此错误
我不知道这是什么原因。我刚刚在蜂巢中创建了我的表,如下所示:
java - Apache NiFi - OutOfMemory Error: GC overhead limit exceeded on SplitText processor
I am trying to use NiFi to process large CSV files (potentially billions of records each) using HDF 1.2. I've implemented my flow, and everything is working fine for small files.
The problem is that if I try to push the file size to 100MB (1M records) I get a java.lang.OutOfMemoryError: GC overhead limit exceeded
from the SplitText processor responsible of splitting the file into single records. I've searched for that, and it basically means that the garbage collector is executed for too long without obtaining much heap space. I expect this means that too many flow files are being generated too fast.
How can I solve this? I've tried changing nifi's configuration regarding the max heap space and other memory-related properties, but nothing seems to work.
Right now I added an intermediate SplitText with a line count of 1K and that allows me to avoid the error, but I don't see this as a solid solution for when the incoming file size will become potentially much more than that, I am afraid I will get the same behavior from the processor.
Any suggestion is welcomed! Thank you
scala - HiveContext 没有读取 Orcfile 的架构
当我运行以下命令时:
列打印为“_col0”、“_col1”、“_col2”等。与它们的真实名称相反,例如“empno”、“name”、“deptno”。
当我在 Hive 中“描述 mytable”时,它会正确打印列名,但是当我运行“orcfiledump”时,它也会显示 _col0、_col1、_col2。我是否必须指定“读取模式”或其他内容?如果是,我该如何在 Spark/Scala 中做到这一点?
注意:我创建的表如下:
注意:这不是这个问题的副本(Hadoop ORC 文件 - 如何工作 - 如何获取元数据),因为答案告诉我使用“Hive”并且我已经在使用 HiveContext,如下所示:
顺便说一句,我使用的是我自己的 hive-site.xml,其中包含以下内容:
apache-spark - 在 spark 中使用 hive 数据库
我是 spark 新手,并尝试使用 HortonWorks Sandbox 在 tpcds 基准表上运行一些查询。 http://www.tpc.org/tpcds/ 在沙盒上通过 shell 或 hive-view 使用 hive 没有问题。问题是如果我想使用 spark,我不知道如何连接到数据库。如何在 spark 中使用 hive 数据库来运行查询?到目前为止,我知道的唯一解决方案是手动重建每个表并使用以下 scala 代码在其中加载数据,这不是最佳解决方案。
我还阅读了一些关于 hive-site.xml 的信息,但我不知道在哪里可以找到它以及要对其进行哪些更改以连接到数据库。
apache-spark - 需要 spark-assembly-1.5.2.-hadoop2.7.jar 用于 HDP 2.3.2 上的 Spark -Oozie 工作流
我正在尝试在 oozie 4.2.0 (HDP 2.3.x) 上安排 spark 1.5.2 作业。Spark 1.5.2 已在外部安装,我没有使用 hortonworks 提供的默认 spark 版本。我指的是下面的帖子来设置它。
我正在努力寻找下面的罐子。
-spark-assembly-1.5.2.2.3.4.0-3485-hadoop2.7.1.2.3.4.0-3485.jar
-spark-examples-1.5.2.2.3.4.0-3485-hadoop2.7.1.2.3.4.0-3485.jar
如果您可以帮助我找到/下载以上 jar 的一些指示,这将是一个很大的帮助。