问题标签 [hdp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
lda - 分层狄利克雷过程 - 推断截断级别
我正在利用 Gensim 的 HDP 实现来推断数据集的主题,但我对截断级别有疑问。
有没有办法推断出最合适的截断级别?我注意到主题的最终数量取决于所选截断级别的值。
apache-spark - 带有 Hive 元存储 3.1.0 的 Apache Spark 2.3.1
我们已将 HDP 集群升级到 3.1.1.3.0.1.0-187 并发现:
- Hive 有一个新的元存储位置
- Spark 看不到 Hive 数据库
事实上我们看到:
你能帮我理解发生了什么以及如何解决这个问题吗?
更新:
配置:
(spark.sql.warehouse.dir,/warehouse/tablespace/external/hive/) (spark.admin.acls,) (spark.yarn.dist.files,file:///opt/folder/config.yml,file :///opt/jdk1.8.0_172/jre/lib/security/cacerts) (spark.history.kerberos.keytab,/etc/security/keytabs/spark.service.keytab) (spark.io.compression.lz4. blockSize,128kb) (spark.executor.extraJavaOptions,-Djavax.net.ssl.trustStore=cacerts) (spark.history.fs.logDirectory,hdfs:///spark2-history/) (spark.io.encryption.keygen. algorithm,HmacSHA1) (spark.sql.autoBroadcastJoinThreshold,26214400) (spark.eventLog.enabled,true) (spark.shuffle.service.enabled,true) (spark.driver.extraLibraryPath,/usr/hdp/current/hadoop-client /lib/native:/usr/hdp/current/hadoop-client/lib/native/Linux-amd64-64) (spark.ssl.keyStore,/etc/security/serverKeys/server-keystore.jks) (spark.yarn .queue,默认)(spark.jars,文件:/opt/folder/component-assembly-0.1.0-SNAPSHOT.jar) (spark.ssl.enabled,true) (spark.sql.orc.filterPushdown,true) (spark.shuffle.unsafe.file.output.buffer, 5m) (spark.yarn.historyServer.address,master2.env.project:18481) (spark.ssl.trustStore,/etc/security/clientKeys/all.jks) (spark.app.name,com.company.env. component.MyClass) (spark.sql.hive.metastore.jars,/usr/hdp/current/spark2-client/standalone-metastore/*) (spark.io.encryption.keySizeBits,128) (spark.driver.memory, 2g) (spark.executor.instances,10) (spark.history.kerberos.principal,spark/edge.env.project@ENV.PROJECT) (spark.unsafe.sorter.spill.reader.buffer.size,1m) ( spark.ssl.keyPassword,*********(已编辑))(spark.ssl.keyStorePassword,*********(已编辑))(spark.history.fs.cleaner.enabled, true) (spark.shuffle.io.serverThreads,128) (spark.sql.hive.convertMetastoreOrc,true) (spark.submit.deployMode,client) (spark.sql.orc.char.enabled,true) (spark.master,yarn) (spark.authenticate.enableSaslEncryption,true) (spark.history.fs.cleaner.interval ,7d) (spark.authenticate,true) (spark.history.fs.cleaner.maxAge,90d) (spark.history.ui.acls.enable,true) (spark.acls.enable,true) (spark.history. provider,org.apache.spark.deploy.history.FsHistoryProvider) (spark.executor.extraLibraryPath,/usr/hdp/current/hadoop-client/lib/native:/usr/hdp/current/hadoop-client/lib/native /Linux-amd64-64) (spark.executor.memory,2g) (spark.io.encryption.enabled,true) (spark.shuffle.file.buffer,1m) (spark.eventLog.dir,hdfs:/// spark2-history/) (spark.ssl.protocol,TLS) (spark.dynamicAllocation.enabled,true) (spark.executor.cores,3) (spark.history.ui.port,18081) (spark.sql.statistics. fallBackToHdfs,true) (spark.repl.local.jars,file:///opt/folder/postgresql-42.2.2.jar,file:///opt/folder/ojdbc6.jar) (spark.ssl.trustStorePassword,*********(已编辑)) (spark.history.ui.admin.acls,) (spark.history.kerberos.enabled,true) (spark.shuffle.io.backLog,8192) (spark.sql.orc.impl,native) (spark. ssl.enabledAlgorithms,TLS_RSA_WITH_AES_128_CBC_SHA,TLS_RSA_WITH_AES_256_CBC_SHA) (spark.sql.orc.enabled,true) (spark.yarn.dist.jars,file:///opt/folder/postgresql-42.2.2.jar,file:///选择/文件夹/ojdbc6.jar) (spark.sql.hive.metastore.version,3.0)TLS_RSA_WITH_AES_256_CBC_SHA) (spark.sql.orc.enabled,true) (spark.yarn.dist.jars,file:///opt/folder/postgresql-42.2.2.jar,file:///opt/folder/ojdbc6. jar) (spark.sql.hive.metastore.version,3.0)TLS_RSA_WITH_AES_256_CBC_SHA) (spark.sql.orc.enabled,true) (spark.yarn.dist.jars,file:///opt/folder/postgresql-42.2.2.jar,file:///opt/folder/ojdbc6. jar) (spark.sql.hive.metastore.version,3.0)
并来自 hive-site.xml:
代码如下:
火花提交:
hive - 多表插入 Hive 中的单个表
我有一个在“部分”列上分区的分区配置单元表。该表有两个分区值 part='good' 和 part='bad'。
我需要将记录从“坏”分区移动到“好”分区并覆盖“坏”分区以删除移动的记录。更复杂的是,我正在寻找一种在单个查询中执行此操作的方法,否则异常处理将很困难。
我尝试使用在同一个表上具有两个插入查询的多表插入来做到这一点,如下所示,
但是上面的查询总是插入,而不是一个插入,另一个插入覆盖!
我什至尝试使用公用表表达式并使用公用表同时插入到该表中,但没有运气!
有没有其他方法可以在单个查询中实现,或者我在上述步骤中做错了什么?
请注意,我正在使用 hive 1.2 的 HDP 集群上执行此操作
hadoop-yarn - Yarn local-dirs - 每个节点设置
在我们的生产集群上,我不时遇到一系列 devops 问题。有时,/
分区会在几个节点上不堪重负。长话短说,事实证明这些节点有 1 个而不是 2 个数据驱动器。如果我们的集群上没有以下设置,这将不是问题:
一些 devops 或任何人,注意到较小的节点上没有 /data2 分区,提出了简单地使用/
分区的想法。由于/
是 16GB,一些对数据要求更高的工作很快就会填满这个东西。
现在,我的问题是:yarn 是否支持 yarn.nodemanager.local-dirs 的每个节点设置?
我通过/data2/hadoop/yarn/local
从故事中删除来解决问题,但感觉并不完美。
我们正在使用 HDP 2.6.4。
谢谢!
apache-spark - 在 YARN 中启用 CPU 调度真的会改善 Spark 中的并行处理吗?
具有容量调度程序的 YARN 在为用户请求分配资源时将仅考虑内存如果我提交这样的 Spark 作业“--master yarn --deploy-mode client --driver-memory 4g --executor-memory 4g - -num-executors 1 --executor-cores 3" , yarn 会分配一个4gb 内存和 1 个 vcpu的 executor ,但是在执行任务时,它会并行执行 3 个任务。
是否单独使用单个内核一次执行一组 3 个任务?
因此,如果我启用 CPU 调度和 CGroups(在 HDP 集群中),yarn 会分配 3 个 vcpu 核心,并且这组 3 个任务将在每个 cpu 中执行吗?它真的会改善处理时间吗?
就目前而言,由于启动节点管理器时出现以下错误,我无法在集群(HDP 2.6.5 centos 7.5)中启用 CPU 调度“无法强制执行 cpu 权重;无法在以下位置写入 cgroup:/sys/fs/cgroup /cpu,cpuacct"
ambari - 升级 Ambari 服务器失败,出现 AttributeError:“NoneType”对象没有属性“title”
我正在按照本文档将 ambari 服务器 2.6 版升级到 2.7 版
在第 12 步之前,这些任务都可以正常工作。当我运行时ambari-server upgrade -v
,它会产生以下错误:
谁能帮我解决这个问题?
提前致谢。
hive - 游侠权限 | 基于分区目录的 Hive 表访问
我正在寻求有关 HDP 中 Ranger 授权服务实现以下用例的帮助。
我有一个配置单元表“客户”,它包含从 HDFS 加载的两个分区下方。
/data/mydatabase/customer/partition1/
/data/mydatabase/customer/SenstivePartition2/
我有两个用户 - user1 和 user2,我想以这样的方式定义一个策略
user1 --> 应该可以访问 --> partition1
user2 --> 应该能够访问 --> partition1 和 SenstivePartition2 两者。
由于第二分区高度敏感,因此我不想定义表级策略,否则两个用户都将获得所有访问权限。
谢谢沙市
ambari - Apache Ambari - 安装向导 Web UI 不起作用
我在使用 Ubuntu 上的 Apache Ambari 2.7.3 及其安装向导时遇到了一些问题。在 Cluster Name 选项卡之后,Web UI 阻止了后续步骤,但我不明白问题出在哪里。在 Web 开发者控制台中有一些错误:
XML 解释错误:未创建根元素地址: http: //192.168.1.129 :8080 /api/v1/persist/CLUSTER_CURRENT_STATUS?_=1545044000929 第 1 行,第 1 列:CLUSTER_CURRENT_STATUS:1:1
源映射错误:请求失败,状态为 404 URL rsource: http: //192.168.1.129 :8080/stylesheets/vendor.css URL 源映射:bootstrap.css.map
apache-spark - 关于 HDP 性能问题的 Spark 2.31 自定义非 ambari 安装
我在集群上运行的 HDP 2.6.2 上安装了 Spark 2.3.1 自定义非 ambari。我已经按照 spark 和非 ambari 安装指南进行了所有必要的配置。
现在,当我在 Yarn 集群模式下提交 spark 作业时,我看到作业之间存在 10-12 分钟的巨大差距,并且我没有看到作业之间正在执行任何错误或操作。附加的屏幕截图显示作业之间的延迟接近 10 分钟,这导致完成 Spark 作业时出现不必要的延迟。 以 Yarn Cluster 模式提交的 Spark 2.3.1 作业
我检查了 Yarn 日志和 Spark UI,我没有看到任何错误或任何使用作业之间的时间戳记录的操作。
查看事件时间线,我看到工作之间的间隔为 10 分钟以上。 作业之间的事件时间线差距
需要帮助以提供任何指示以了解如何解决此问题并提高工作绩效。
问候, 维什
mapreduce - 即时创建队列
我想在一个循环中运行 X 个 MR 作业,每个作业都提交到一个动态创建的随机队列。
示例:-D mapred.queuename=root.random 名称。
我想根据需要循环多次,它应该在 YARN 中即时创建尽可能多的队列。
有没有办法做到这一点?