问题标签 [cloudera-cdp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-kafka - 在 Cloudera Data Platform CDP 公共云中使用 Nifi 读取/写入 Kafka
Nifi 和 Kafka 现在都可以在 Cloudera 数据平台、CDP 公有云中使用。Nifi 擅长与一切对话,而 Kafka 是主流的消息总线,我只是想知道:
在 CDP 公共云中从 Apache Nifi 向 Kafka 生产/消费数据所需的最少步骤是什么
理想情况下,我会寻找适用于任何云的步骤,例如 Amazon AWS 和 Microsoft Azure。
我对遵循最佳实践并使用平台默认配置的答案感到满意,但如果有常见的替代方案,这些也是受欢迎的。
apache-ranger - 如何将角色从一个 apache ranger 实例迁移到另一个实例?
我们计划制作现有 CDP 集群的副本集群。我可以导入/导出策略,但不能导入/导出角色。
我们有大约 2k 多个角色,使用以下 api 我可以创建角色,但想知道这是否可以自动化
任何指针都会有帮助吗?
hadoop - Hortonworks (HDP) 到 Cloudera (CDP) 迁移后无法创建托管 Hive 表
作为从 Hortonworks 数据平台 (HDP v3.x) 迁移到 Cloudera 数据平台 (CDP) 7.1 版的一部分,我们正在测试我们的 Hadoop 应用程序。在测试时,我们在尝试创建托管 Hive 表时发现了以下问题。请就可能的解决方案提出建议。谢谢!
错误:编译语句时出错:FAILED:执行错误,从 org.apache.hadoop.hive.ql.ddl.DDLTask 返回代码 40000。MetaException(消息:托管表的位置应位于托管仓库根目录或其数据库的 managedLocationUri 内。表 MANAGED_TBL_A 的位置无效:hdfs://cluster/prj/Warehouse/Secure/APP/managed_tbl_a,托管仓库:hdfs: //集群/仓库/表空间/托管/配置单元)(状态=08S01,代码=40000)
DDL 脚本
java - 使用 CDP 上的 HBase Java 客户端通过 Knox 连接 HBase
我需要使用 HBase Java 客户端通过 Knox 连接到 HBase。我的诺克斯详细信息如下
使用下面的代码,我可以添加 URL 但无法添加凭据。
我见过其他 StackOverflow 问题,但他们都提到了要在配置中设置的以下属性。
我的问题是有没有办法使用 Knox 网关详细信息连接到 HBase 并检索数据?
cloud - Cloudera CDP 私有云 - 在主机上安装失败
在使用 Cloudera Manager 试用安装 CDP 7.1.4 运行时时出现主机安装失败错误。为此,我启动了两个虚拟机(Ubuntu 18),它们使用 NatNetwork 相互连接(我可以 ping 并使用 ssh 从一个连接到另一个,还模拟了一台机器上端口 7182 上的服务器,并且 nc连接到该端口)。
防火墙已禁用,端口已打开,TLS 已禁用,但代理仍会停止。什么可能导致这种中断?
hadoop - 如何使用“S3a//”协议在 ECS S3 对象存储之上创建 Hive 外部表
我正在尝试使用“S3a//”方案在 S3 对象存储之上使用 Beeline 创建 Hive 外部表。我已遵循官方 cloudera 文档并配置了以下属性。
- fs.s3a.access.key
- fs.s3a.secret.key
- fs.s3a.endpoint
我能够hadoop fs -Dfs.s3a.access.key=<access_key> -Dfs.s3a.secret.key=<secret_key> -Dfs.s3a.endpoint=<host_port> -ls s3a://<bucket_name>/dir/
成功运行并且能够看到目录。所以我知道我的凭据、存储桶访问权限和整体 Hadoop 设置是有效的。
但是,当我尝试从hive(Beeline)访问相同的 s3 资源时,例如使用 LOCATION 's3a://[bucket-name]/dir/'运行CREATE EXTERNAL TABLE语句,它会失败。
配置
询问
我得到以下错误。
错误:失败:执行错误,从 org.apache.hadoop.hive.ql.ddl.DDLTask 返回代码 40000。MetaException(消息:得到异常:java.nio.file.AccessDeniedException <bucket_name>:org.apache.hadooop.fs.s3a.auth.NoAuthWithAWSException:TemporaryAWSCredentialsProvider SimpleAWSCredentialsProvider EnvironmentVariableCredentialsProvider IAMInstanceCredentialsProvider 没有提供 AWS 凭证:com.amazonaws.sdkClientException:无法从环境变量(AWS_ACCESS_KEY_ID(或 AWS_ACCESS_KEY)和 AWS_SECRET_KEY(或 AWS_SECRET_ACCESS_KEY))加载 AWS 凭证(状态=08S01,代码=40000)
注意:我使用的是 CDH-7.1.6、Hive 3.1.3 和 S3 对象存储。我能够使用 hadoop fs 以及使用 spark scala read api 访问相同的 s3 资源
有人知道这个等式缺少什么吗?
streamsets - 无法将我的 Streamsets 帐户与 CDP 关联
我使用默认凭据登录到 CDP 上的 Streamsets,然后它要求我注册。我之前注册过,所以我用我的凭据登录,然后它要求我点击现在链接按钮。单击按钮后,它显示了一个错误页面,从那时起,只有错误页面出现,我的帐户未链接,因此 Streamsets 数据收集器服务未在 CDP 上启动。如果有人在 CDP 上使用过 Streamsets,请提供帮助。
json - Scala - 如何读取超过 4096 个字符的 MQ 消息
应用信息:IBM MQ 9.2、Cloudera CDP 7.1.6、Spark 2.4.5
我正在将 Spark 代码从 Spark 1.6 升级到 Spark 2.4.5。我有一个 json 内容(复杂模式)推送到消息长度超过 4096 的 MQ 队列。我能够直接读取具有相同内容的 json 文件,但是当相同的内容推送到 MQ 时,我得到了损坏的记录尝试使用以下代码打印架构。
当我发出 时rdd.collect().foreach(println)
,它只在日志文件中显示 4095 个字符。
是否有任何线索可能是损坏记录的原因?
我的 run.sh
是否有任何配置设置可以增加火花端的缓冲区大小/字符串长度?
parcel - 如何取回我的 CDP 包裹?它会在从 aws 停止集群时自动删除
我已经在 AWS 上创建了带有外部 Metastore 集群的 CDP 多节点。它工作正常。然后我停止了集群一天。第二天我启动了集群。然后在连接到 Cloudera Manager 时..没有显示可用包裹状态..前一天我在其中配置了很多服务..
connection-string - 使用 Dask 库连接到 Impala DB
我正在尝试通过 Dask 库连接到 Impala DB,以使用 read_sql_table() 从表中获取所有数据。需要连接字符串来连接,我尝试使用我通常在 Dbeaver 中连接的连接字符串,但它失败说无法加载插件:'impala'。
有人可以帮助我使用 Dask 库连接到 Impala DB,或者让我知道 Dask 是否支持 Impala 连接?谢谢。