问题标签 [cdp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
776 浏览

apache-kafka - 在 Cloudera Data Platform CDP 公共云中使用 Nifi 读取/写入 Kafka

Nifi 和 Kafka 现在都可以在 Cloudera 数据平台、CDP 公有云中使用。Nifi 擅长与一切对话,而 Kafka 是主流的消息总线,我只是想知道:

在 CDP 公共云中从 Apache Nifi 向 Kafka 生产/消费数据所需的最少步骤是什么

理想情况下,我会寻找适用于任何云的步骤,例如 Amazon AWS 和 Microsoft Azure。

我对遵循最佳实践并使用平台默认配置的答案感到满意,但如果有常见的替代方案,这些也是受欢迎的。

0 投票
0 回答
119 浏览

google-chrome - 是否可以在一个 CDP 会话中两次使用 CDP 方法的“Runtime.addBinding”?

我需要调查不同“bindingCalled”事件中的两个函数。我想知道是否可以?

0 投票
1 回答
397 浏览

javascript - 如何获取 Puppeteer 访问的页面的所有 DOM 元素上的所有事件 - 基本上是 getEventListeners

我正在研究一些 Puppeteer 支持的网站分析,并且确实需要在页面上列出所有事件。

使用“普通” JavaScript 很容易,所以我想我可以在 Puppeteer 中评估它并完成其他任务。

好吧 - 这并不容易,例如“getEventListeners”不起作用。所以下面的代码不起作用(但如果我采用被评估的代码,请将其复制到浏览器的控制台并运行 - 它运行良好);

我已经进一步调查,看起来这在 Puppeteer 中不起作用,甚至尝试过使用好的旧 JQuery const events = $._data( element[0], 'events' );,但它也不起作用。

然后我偶然发现了 Chrome DevTools 协议(CDP),应该可以通过预先定义一个元素来获得它;

(来源:https ://github.com/puppeteer/puppeteer/issues/3349 )

但是当我想检查每个 DOM 元素的事件并将它们添加到数组时,这看起来太复杂了。我怀疑有比循环页面元素并为每个元素运行 CDP 更好的方法。或者更好地说-我希望:)

有任何想法吗?

我只想拥有一个包含(JS)事件的所有元素的数组,例如:

0 投票
0 回答
12 浏览

google-chrome - 是否有自定义信息的 Chrome DevTools 协议事件?

$dayjob 具有用于集成的无头 chrome 工具。这是定制的(不要问)。

目前,此工具通过控制台 API(Runtime.consoleAPICalled事件)使用标记值将信息向下发送到控制进程。与前哨值一样,系统的“正常”日志经常与“元”调用发生冲突,从而将控制进程置于不正确的状态。

我尝试浏览文档但找不到任何东西,所以在这里询问:是否有更好、更清洁的通道可用于将数据发送回控制器?或者是唯一的选择,使哨兵值更加精细,希望最终不再有任何冲突?

0 投票
1 回答
57 浏览

scala - 在 Dev CDP 环境(SPARK,SCALA)中以 orc 或 parquet 格式将数据帧的值存储到 hive 时出错

我们在之前的 HDP 环境中测试过的所有用例都可以工作,所以每当我尝试在 hive 中编写 csv 数据帧时,我们都想将其转移到 CDP,它给了我这个错误。我已经尝试了所有将 csv 存储在 HDFS 数据帧中的库。我打印了 DF 的模式及其正确的。

0 投票
0 回答
80 浏览

pyspark - CDSW/CDP 中的 PySpark 内存使用情况

如果我创建如下所示的 pyspark 数据框,该 pyspark 数据框会占用 CDSW 内存(如 pandas 数据框)吗?还是会从 CDP 中获取内存?

在创建如下所示的大型 pyspark 数据框时,我遇到了内存问题。

0 投票
0 回答
28 浏览

cisco - 带有 tcpdump 的 CDP - 如何区分“主干”或“访问”端口?

我目前正在使用tcpdump -nv -s 1500 ether dst 01:00:0c:cc:cc:cc -c 1 -i eth0从连接的以太网电缆获取 CDP 信息。但是,似乎输出是相同的,无论端口设置为在 vlan 5 上访问,还是与本机 vlan 5 建立中继。

如何判断是连接到中继 (.1q) 端口还是接入端口?

0 投票
0 回答
40 浏览

hadoop - 将 Phoenix Hbase 表快照从 HDP 集群克隆到 CDP 集群无法正常工作

我有一个 HDP hadoop 集群。我从该集群中拍摄了 phoenix 表的快照,并将该表克隆到 CDP 集群。Hbase 表是从快照创建的,并且 hfiles 被导入到表的数据目录中。从 phoenix shell 中选择表时,显示的数据为空。如果我从hbase shell正在显示(编码)的数据中进行扫描操作。有没有解决这个问题的方法。谢谢

0 投票
0 回答
15 浏览

hive - Hive 分桶表插入需要更长的时间

我有一张包含超过 140 亿条记录的表(比如 Table_A)。现在,我创建了一个分桶表(Table_A_bkt),其中包含按 ID 列聚类的 100 多个桶。每当我尝试将记录插入此表时,都会花费更多时间并且作业会超时。

为表选择存储桶计数的理想解决方案是什么?另外,将记录插入具有大量数据集的分桶表的优化方法是什么?

0 投票
0 回答
65 浏览

sql-server - 解压缩具有 xml 数据的 varbinary 列并将其插入配置单元表

我们有 SQL Server 2016,其中有一varbinary列包含压缩的 XML。现在我们想通过解压缩将数据加载到 cdp hive (Hive 3.1.3000) 表中。

最初我们使用 java 实用程序来解压缩和膨胀数据,但现在我们正在寻找一些替代方法,如 pyspark。

我们使用下面的 java 代码来膨胀数据:

我现在可以从数据帧中获取字节数组,如下所示:

在此处输入图像描述

请指导我如何从这个字节数组生成解压缩的 XML。