问题标签 [hadoop3]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
103 浏览

hadoop - 在 hadoop 3 中,pid 文件在哪里/如何命名?

在从 hadoop2 迁移到 hadoop3 期间,我们注意到 pid 文件和 init 脚本存在一些问题。它归结为以下问题:

上游 init/systemd 脚本需要一个 pid 文件名,如“yarn-yarn-nodemanager.pid”,而我们的 Hadoop 3.1.x 安装创建名为“hadoop-yarn-nodemanager.pid”的文件。处理 PID 目录是直截了当的,并且有很好的文档记录,但我找不到环境变量或运行参数来决定哪些文件名确切地用于 pid 文件。

有人可以指出 pid 写入的过程吗?我遇到了 systemd 和 init.d 的问题,因此必须有一些来源配置片段负责。

0 投票
4 回答
4767 浏览

apache-spark - 如何在不使用 HDP 3.1 中的仓库连接器的情况下将表从 spark 中写入 hive

当尝试在 HDP 3.1 上使用 spark 2.3 写入 Hive 表时,无需使用仓库连接器直接进入 hives 模式,使用:

失败:

但是一个:

火花与spark.sql("select * from foo.my_table_02").show作品就好了。现在去蜂巢/直线:

一个

返回

如何在不使用仓库连接器的情况下使用 spark 写入 hive,但仍然写入稍后可以被 hive 读取的同一个元存储?据我所知,外部表应该是可能的(你不是管理的,不是 ACID 不是事务的),但我不知道如何告诉saveAsTable如何处理这些。

编辑

相关问题:

可能是像https://github.com/qubole/spark-acid这样的解决方法,比如https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.1.4/integrating-hive/content/hive_hivewarehouseconnector_for_handling_apache_spark_data.html但是我不喜欢在我还没有看到任何大规模性能测试的情况下使用更多胶带的想法。此外,这意味着更改所有现有的 spark 作业。

事实上,无法将表保存到配置单元元存储,HDP 3.0报告了大型数据帧和仓库连接器的问题。

编辑

我刚刚找到https://community.cloudera.com/t5/Support-Questions/Spark-hive-warehouse-connector-not-loading-data-when-using/td-p/243613

和:

执行()与执行查询()

ExecuteQuery() 将始终使用 Hiveserver2-interactive/LLAP,因为它使用快速 ARROW 协议。当 jdbc URL 指向非 LLAP Hiveserver2 时使用它会产生错误。

Execute() 使用 JDBC 并且对 LLAP 没有这种依赖关系,但有一个内置限制,最多只能返回 1.000 条记录。但对于大多数查询(INSERT INTO ... SELECT、count、sum、average)来说,这不是问题。

但这不会扼杀 hive 和 spark 之间的任何高性能互操作性吗?特别是如果没有足够的 LLAP 节点可用于大规模 ETL。

事实上,这是真的。可以在https://github.com/hortonworks-spark/spark-llap/blob/26d164e62b45cfa1420d5d43cdef13d1d29bb877/src/main/java/com/hortonworks/spark/sql/hive/llap/HWConf.java#L39配置此设置,虽然我不确定增加这个值对性能的影响

0 投票
1 回答
310 浏览

python-3.x - Dask - 试图读取 hdfs 数据得到错误 ArrowIOError: HDFS 文件不存在

我尝试从存储在 hdfs 中的 csv 创建一个数据框。连接成功。但是当试图获取 len 函数的输出时出现错误。

代码:

错误:

0 投票
0 回答
197 浏览

java - Hadoop 3.2 Oozie -Pig 问题

我将 Hadoop 3.2.1 与 pig 0.17.0 和 oozie 5.1.0 一起使用。在确保 Oozie 中的 Pig Workflow 示例时,我在 oozie 中遇到了一个问题,如下所述。

我目前使用 Guava jar 20.0,但我已经更改了 guava jar versions(27.0,14.02,11.0) share/lib/ directorylocal directory但我遇到了同样的问题。

0 投票
1 回答
73 浏览

namenode - Hadoop 中的辅助名称节点

假设检查点的默认时间是 1 小时。如果名称节点在距离上一个检查点 55 分钟后关闭。我们丢失了最后 55 分钟的数据(编辑日志文件数据未添加到 fsImage 中)?

0 投票
1 回答
2698 浏览

apache-spark - Hadoop 3 中的 Spark 和 Hive:metastore.catalog.default 和 spark.sql.catalogImplementation 之间的区别

我正在使用 Hadoop 3 开发 Hadoop 集群 (HDP)。还安装了 Spark 和 Hive。

由于 Spark 和 Hive 目录是分开的,因此有时很难知道在 Spark 应用程序中如何以及在何处保存数据。

我知道,该属性spark.sql.catalogImplementation可以设置为in-memory(使用基于 Spark 会话的目录)或hive(使用 Hive 目录进行持久元数据存储 -> 但元数据仍与 Hive DB 和表分开)。

我想知道物业是做什么的metastore.catalog.default。当我将其设置为时,hive我可以看到我的 Hive 表,但由于这些表存储在/warehouse/tablespace/managed/hiveHDFS 的目录中,我的用户无权访问该目录(因为 hive 当然是所有者)。

那么,metastore.catalog.default = hive如果我无法从 Spark 访问表,我为什么要设置 ? 它与 Hortonwork 的 Hive Warehouse 连接器有关吗?

谢谢您的帮助。

0 投票
0 回答
166 浏览

hadoop - 错误:datanode只能由harry执行

我想启动所有(namenode 和 datanode),但是当我使用这个命令start-all.sh时它返回:

ERROR: datanode can only be executed by harry

如何解决这个问题?

0 投票
0 回答
399 浏览

hadoop - 找不到或无法加载主类 hdfs 问题

我正在尝试使用 Apache Rya 进行一些测试(https://rya.apache.org/)。

对于那些熟悉 Rya 和 RDF 商店的人,我正在尝试进行批量加载,此处对此进行了解释:https ://github.com/apache/rya/blob/master/extras/rya.manual/src/site/降价/加载数据.md

简而言之,我应该将 Jar 文件“mapreduce/target/rya.mapreduce--shaded.jar”复制到 hdfs 卷中,然后运行以下命令:

bin/hadoop fs -put好吧,我将所需的 Jar 和输入文件复制到 hdfs 中,并使用命令验证它们确实存在。我的问题是,当我在官方示例中运行 cmd 时,出现以下我无法理解或解决的错误行。

信息;所有环境变量均已正确设置,HADOOP_HOME 和 HADOOP_PREFIX

0 投票
2 回答
407 浏览

java - Hadoop 名称节点格式化窗口 - java.lang.UnsupportedOperationException

我在学校的数据库课上,我的教授让我们使用 hadoop v3.2.1。在按照 youtube 教程在 Windows 上安装时,我被困在格式化名称节点部分。这就是 cmd 中出现的内容:

这是我的属性:

核心站点.xml:

mapred-site.xml

hdfs-site.xml

纱线站点.xml:

我一直在关注这个教程: 如何在 Windows 上安装 Hadoop,直到大约一半时我意识到它太旧了,然后切换到这个: 如何在 Windows10 中安装 Hadoop 3.2.0

另外,我不知道这是否与我当前的问题有关,所以我会这么说。当我跳到下一步并键入 start-all 时,资源管理器和节点管理器都会出错。我想我会把它全部塞进一个问题中。

0 投票
0 回答
410 浏览

hadoop - Hadoop 3.2.1 和 HBase 2.2.3 不兼容:hadoop-functions.sh 中的错误

我在 Centos8 上运行 Hadoop 3.2.1 和 Hbase 2.2.3。我完全按照 Apache 文档从 Apache 镜像下载了 Hadoop。Hadoop 工作得很好。然后,我从 Apache 镜像下载了 HBase,并严格按照 Apache 文档进行操作。

当我尝试运行时,hbase version我收到此错误:

HBase 然后继续打印出版本信息。如果我运行hbase-daemon.sh start master,我会收到相同的错误,但HMaster不会出现在jps.

根据 Apache HBase 文档,因为我运行的 Hadoop 版本大于 3.0.0,所以我删除了hbase/lib目录中包含 hadoop 一词的所有 jar 文件。在删除这些 jar 文件之前和之后,我都收到了同样的错误。

这是我第一次在任何地方发帖。如果我没有包含足够或正确的信息,请告诉我您希望我提供什么。