“hadoop3”的相关标签问题_Stack Overflow中文网

0 投票

0 回答

103 浏览

hadoop - 在 hadoop 3 中，pid 文件在哪里/如何命名？

在从 hadoop2 迁移到 hadoop3 期间，我们注意到 pid 文件和 init 脚本存在一些问题。它归结为以下问题：

上游 init/systemd 脚本需要一个 pid 文件名，如“yarn-yarn-nodemanager.pid”，而我们的 Hadoop 3.1.x 安装创建名为“hadoop-yarn-nodemanager.pid”的文件。处理 PID 目录是直截了当的，并且有很好的文档记录，但我找不到环境变量或运行参数来决定哪些文件名确切地用于 pid 文件。

有人可以指出 pid 写入的过程吗？我遇到了 systemd 和 init.d 的问题，因此必须有一些来源配置片段负责。

hadoop hadoop3

2019-10-08T14:51:20.027

0 投票

4 回答

4767 浏览

apache-spark - 如何在不使用 HDP 3.1 中的仓库连接器的情况下将表从 spark 中写入 hive

当尝试在 HDP 3.1 上使用 spark 2.3 写入 Hive 表时，无需使用仓库连接器直接进入 hives 模式，使用：

失败：

但是一个：

火花与spark.sql("select * from foo.my_table_02").show作品就好了。现在去蜂巢/直线：

一个

返回

如何在不使用仓库连接器的情况下使用 spark 写入 hive，但仍然写入稍后可以被 hive 读取的同一个元存储？据我所知，外部表应该是可能的（你不是管理的，不是 ACID 不是事务的），但我不知道如何告诉saveAsTable如何处理这些。

编辑

我刚刚找到https://community.cloudera.com/t5/Support-Questions/Spark-hive-warehouse-connector-not-loading-data-when-using/td-p/243613

和：

执行（）与执行查询（）

ExecuteQuery() 将始终使用 Hiveserver2-interactive/LLAP，因为它使用快速 ARROW 协议。当 jdbc URL 指向非 LLAP Hiveserver2 时使用它会产生错误。

Execute() 使用 JDBC 并且对 LLAP 没有这种依赖关系，但有一个内置限制，最多只能返回 1.000 条记录。但对于大多数查询（INSERT INTO ... SELECT、count、sum、average）来说，这不是问题。

但这不会扼杀 hive 和 spark 之间的任何高性能互操作性吗？特别是如果没有足够的 LLAP 节点可用于大规模 ETL。

事实上，这是真的。可以在https://github.com/hortonworks-spark/spark-llap/blob/26d164e62b45cfa1420d5d43cdef13d1d29bb877/src/main/java/com/hortonworks/spark/sql/hive/llap/HWConf.java#L39配置此设置，虽然我不确定增加这个值对性能的影响

2019-10-16T05:11:45.577

0 投票

1 回答

310 浏览

python-3.x - Dask - 试图读取 hdfs 数据得到错误 ArrowIOError: HDFS 文件不存在

我尝试从存储在 hdfs 中的 csv 创建一个数据框。连接成功。但是当试图获取 len 函数的输出时出现错误。

代码：

错误：

python-3.x dask dask-distributed hadoop3

2019-11-27T14:10:56.810

0 投票

0 回答

197 浏览

java - Hadoop 3.2 Oozie -Pig 问题

我将 Hadoop 3.2.1 与 pig 0.17.0 和 oozie 5.1.0 一起使用。在确保 Oozie 中的 Pig Workflow 示例时，我在 oozie 中遇到了一个问题，如下所述。

我目前使用 Guava jar 20.0，但我已经更改了 guava jar versions(27.0,14.02,11.0) share/lib/ directory，local directory但我遇到了同样的问题。

java hadoop guava oozie hadoop3

2019-12-04T10:47:35.003

0 投票

1 回答

73 浏览

namenode - Hadoop 中的辅助名称节点

假设检查点的默认时间是 1 小时。如果名称节点在距离上一个检查点 55 分钟后关闭。我们丢失了最后 55 分钟的数据（编辑日志文件数据未添加到 fsImage 中）？

namenode hadoop3

2020-01-14T04:37:18.990

0 投票

1 回答

2698 浏览

apache-spark - Hadoop 3 中的 Spark 和 Hive：metastore.catalog.default 和 spark.sql.catalogImplementation 之间的区别

我正在使用 Hadoop 3 开发 Hadoop 集群 (HDP)。还安装了 Spark 和 Hive。

由于 Spark 和 Hive 目录是分开的，因此有时很难知道在 Spark 应用程序中如何以及在何处保存数据。

我知道，该属性spark.sql.catalogImplementation可以设置为in-memory（使用基于 Spark 会话的目录）或hive（使用 Hive 目录进行持久元数据存储 -> 但元数据仍与 Hive DB 和表分开）。

我想知道物业是做什么的metastore.catalog.default。当我将其设置为时，hive我可以看到我的 Hive 表，但由于这些表存储在/warehouse/tablespace/managed/hiveHDFS 的目录中，我的用户无权访问该目录（因为 hive 当然是所有者）。

那么，metastore.catalog.default = hive如果我无法从 Spark 访问表，我为什么要设置 ? 它与 Hortonwork 的 Hive Warehouse 连接器有关吗？

谢谢您的帮助。

apache-spark hadoop hive hive-metastore hadoop3

2020-01-24T10:20:00.513

0 投票

0 回答

166 浏览

hadoop - 错误：datanode只能由harry执行

我想启动所有（namenode 和 datanode），但是当我使用这个命令start-all.sh时它返回：

ERROR: datanode can only be executed by harry

如何解决这个问题？

hadoop ssh hadoop3

2020-03-05T14:29:36.343

0 投票

0 回答

399 浏览

hadoop - 找不到或无法加载主类 hdfs 问题

我正在尝试使用 Apache Rya 进行一些测试（https://rya.apache.org/）。

对于那些熟悉 Rya 和 RDF 商店的人，我正在尝试进行批量加载，此处对此进行了解释：https ://github.com/apache/rya/blob/master/extras/rya.manual/src/site/降价/加载数据.md。

简而言之，我应该将 Jar 文件“mapreduce/target/rya.mapreduce--shaded.jar”复制到 hdfs 卷中，然后运行以下命令：

bin/hadoop fs -put好吧，我将所需的 Jar 和输入文件复制到 hdfs 中，并使用命令验证它们确实存在。我的问题是，当我在官方示例中运行 cmd 时，出现以下我无法理解或解决的错误行。

信息；所有环境变量均已正确设置，HADOOP_HOME 和 HADOOP_PREFIX

hadoop mapreduce hadoop3

2020-03-09T13:45:50.207

0 投票

2 回答

407 浏览

java - Hadoop 名称节点格式化窗口 - java.lang.UnsupportedOperationException

我在学校的数据库课上，我的教授让我们使用 hadoop v3.2.1。在按照 youtube 教程在 Windows 上安装时，我被困在格式化名称节点部分。这就是 cmd 中出现的内容：

这是我的属性：

核心站点.xml：

mapred-site.xml

hdfs-site.xml

纱线站点.xml：

我一直在关注这个教程：如何在 Windows 上安装 Hadoop，直到大约一半时我意识到它太旧了，然后切换到这个：如何在 Windows10 中安装 Hadoop 3.2.0

另外，我不知道这是否与我当前的问题有关，所以我会这么说。当我跳到下一步并键入 start-all 时，资源管理器和节点管理器都会出错。我想我会把它全部塞进一个问题中。

java windows hadoop windows-10 hadoop3

2020-03-15T19:57:14.880

0 投票

0 回答

410 浏览

hadoop - Hadoop 3.2.1 和 HBase 2.2.3 不兼容：hadoop-functions.sh 中的错误

我在 Centos8 上运行 Hadoop 3.2.1 和 Hbase 2.2.3。我完全按照 Apache 文档从 Apache 镜像下载了 Hadoop。Hadoop 工作得很好。然后，我从 Apache 镜像下载了 HBase，并严格按照 Apache 文档进行操作。

当我尝试运行时，hbase version我收到此错误：

HBase 然后继续打印出版本信息。如果我运行hbase-daemon.sh start master，我会收到相同的错误，但HMaster不会出现在jps.

根据 Apache HBase 文档，因为我运行的 Hadoop 版本大于 3.0.0，所以我删除了hbase/lib目录中包含 hadoop 一词的所有 jar 文件。在删除这些 jar 文件之前和之后，我都收到了同样的错误。

这是我第一次在任何地方发帖。如果我没有包含足够或正确的信息，请告诉我您希望我提供什么。

hadoop hbase hadoop3

2020-04-01T16:33:50.980

问题标签 [hadoop3]

编辑

编辑

Reference