问题标签 [cdap]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
536 浏览

cdap - 如何通过 CDAP 管道的文件提供运行时参数/参数值

如何将运行时参数/参数添加到 CDAP 管道。

我们可以在所有 Transforms、Source 和 Target 节点中设置参数,并在运行时在 Datafusion 环境中手动输入值。

但是在生产环境中,我想要一个参数文件来将值提供给管道,我如何实现这个功能。

在 CDAP 文档中,我没有发现任何关于运行时参数的有用信息。我是数据融合的新手,对界面不是很熟悉。如果已经回答了这个问题,则重定向到该线程也将有所帮助

0 投票
1 回答
282 浏览

logging - 对于 CDAP Logging HTTP RESTful API,如何传递过滤器参数

根据 CDAP 文档,过滤器字符串可以作为可选参数提供。它会将返回的日志条目过滤为与提供的字符串匹配的日志条目。

https://docs.cask.co/cdap/6.0.0/en/reference-manual/http-restful-api/logging.html#http-restful-api-logging

如果我只需要在日志级别上过滤为错误,我如何在其余的 api 调用中传递它。我尝试添加&logLevel=ERROR但它不起作用,请指导我如何通过过滤器。

0 投票
1 回答
550 浏览

google-cloud-data-fusion - 如何在 CDAP (Datafusion) 中处理具有不同列的 CSV?

我有一个案例,我从第三方收到多个 CSV(很难让他们更改格式),这些 CSV 应该有相同的列,但有时缺少一个或多个列。如果我使用 CDAP 文件(读取为文本),然后使用牧马人来处理 CSV,牧马人使用以下指令:

它将假定读取的所有文件都具有相同的列格式,并且会弄乱列比第一个文件少或多的文件的数据。

到目前为止,我尝试使用 File 读取为 blob 并将输出作为字节使用配置了此指令的 Wrangler:

但现在我什至没有任何输出(或错误),所以我不知道如何解析那些非统一文件。CDAP 能够处理这种情况吗?如果是,如何?

0 投票
1 回答
518 浏览

google-cloud-platform - 如何在 CDAP Wrangler 中舍入十进制值?

我解析了一个 CSV 文件,其中包含 currency_exchange_rate 列,其中的值具有不同的小数位,例如:

  • 3.6415
  • 0.896458
  • 1
  • 0.30376

我想将所有费率四舍五入到小数点后 4 位,以防高于它应该如下所示:

  • 3.6415
  • 0.8965
  • 1.0000
  • 0.3038

将列数据类型更改为“浮点”时,“格式”选项显示为灰色。我查看了“指令”和“函数”章节以获取更多信息,并且没有提到浮点值的小数位。我在 StackOverflow 上找到了另一个关于自定义转换的线程,但我仍然不知道是否可以根据需要对值进行舍入。

你能告诉我如何实现我上面描述的格式吗?任何输入将不胜感激。

0 投票
1 回答
103 浏览

apache-spark - CDAP spark phoenix 应用程序连接问题

我们有一个 cdap 应用程序,可以使用 phoenix 驱动程序从 spark 连接到 phoenix 表。我的环境中有 phoenix 4.7 版。根据标准 spark2 phoenix 连接,它只需要 phoenix-spark2 作为依赖项,所有其他依赖项将从类路径和 hbase-site.xml 属性中获取。

现在 cdap spark phoenix 应用程序所需的依赖项是什么,我如何将 hbase-site.xml 与 cadp 应用程序一起使用以成功连接。

0 投票
1 回答
282 浏览

google-cloud-data-fusion - 自动检测数据融合中 HTTP 插件的嵌套 json 响应

我正在尝试在数据融合中使用 HTTP 批处理源插件调用 HTTP GET API。API 的响应是一个复杂的动态嵌套 json,因此我无法手动指定输出模式。有没有办法克服这个问题。

提前致谢!

0 投票
2 回答
432 浏览

google-cloud-platform - 在 GCP Data Fusion 的 pythonEvaluator 转换中运行 pip install py4j

我正在尝试在 Python Evaluator 的本机模式下运行“pip install py4j”。我找不到可以运行此命令来安装依赖项的位置。无法在网络上的任何地方找到解决方案。请指导我在数据融合中执行此命令。

提前致谢!

0 投票
1 回答
346 浏览

google-cloud-platform - 在数据融合中实现 SCD type2

我正在尝试在 Datafusion 中实现 type2。有人可以通过使用管道转换/动作/条件来帮助执行插入和更新来实现这一点。我试图使用 Wrangler 为源和目标生成哈希并加入它们。我在这里感到震惊,不知道如何确定要更新/插入的内容以及如何处理这些内容。我的目标是 BigQuery 表。

0 投票
1 回答
359 浏览

google-cloud-platform - 无法在 Datafusion 中上传 CDAP 自定义插件

我正在尝试从 Datafusion 上传按钮上传 http-sink 插件。我克隆了 http-sink 存储库,做了一些非常小的更改并将其打包为 JAR。现在,当我尝试使用上传插件按钮上传 JAR 和 JSON 文件时,出现以下错误:

'工件:default.http-plugins.1.3.0-SNAPSHOT' 未找到

谁能帮我解决这个错误?

0 投票
1 回答
76 浏览

google-cloud-data-fusion - GCP Datafusion上传自定义插件太慢

目前我正在使用基本版的数据融合,我想上传一个自定义插件。上传jar和json太慢了。上传插件大约需要 10 分钟,整个浏览器都挂了。以前有没有人遇到过这个问题,你如何处理它。