问题标签 [cdap]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
320 浏览

hadoop - 用于从 Sftp 服务器读取数据的 CDAP Source 插件

我想通过使用 cdap 源插件来读取可供 Sftp 服务器使用的 csv 文件。

我遇到了同样的FTP Batch Source插件。但是当运行这个时,我遇到了异常。

我正在使用以下版本的库,这也是一个限制。

  1. Hadoop - 2.7.3
  2. Spark - 2.3.0

我也遇到了这个问题,它建议使用这个并设置 proeprtyfs.sftp.implorg.apache.hadoop.fs.sftp.SFTPFileSystem解决这个问题,但不确定如何使用上面的代码并设置这个 proeprty。

0 投票
1 回答
442 浏览

google-cloud-storage - 如何使用 CDAP 创建从 BigQuery 到 Google Storage 的 ETL?

我在我的 Google Cloud 环境中设置 CDAP,但在执行以下管道时遇到问题:在 BigQuery 上运行查询并将结果保存在 Google Storage 上的 CSV 文件中。

我的过程是:

  1. 使用Google Marketplace 上的CDAP OSS 映像安装 CDAP 。

  2. 构建以下管道:

凭据密钥具有所有者权限,我可以使用“预览”选项访问查询结果。

管道结果:

文件:

  • _SUCCESS(空)
  • part-r-00000(查询结果)

没有生成 csv 文件,我也找不到可以在 CDAP 中为输出文件设置名称的地方。我错过了任何配置步骤吗?

更新:

我们最终放弃了 CDAP,而使用了 Google DataFlow。

0 投票
1 回答
230 浏览

xml - 使用云数据融合将 xml 数据加载到大查询接收器时面临问题

我正在尝试通过使用云数据融合将 xml 文件加载到大查询数据接收器中。我无法加载这个特定的 xml 。

0 投票
1 回答
228 浏览

plugins - 无法上传自定义插件

我创建了一个自定义插件,要上传到基于 CDAP 平台的 Google Cloud Data Fusion 平台。我遵循了开发和部署插件的说明,但是当我尝试将相应的 Json 配置文件(由 IntelliJ 本身通过 CDAP Maven 工件生成)与以下错误相关联时,上传失败:

如果我删除对父工件的引用,则会加载自定义插件,但它既不会显示为批处理插件,也不会显示为流插件(我可以理解这一点,我正在删除父引用)。可能是什么错误?

0 投票
1 回答
77 浏览

dataset - 在 KeyValueTable 中写入键失败

我已经为 Google Data Fusion 上的 CDAP 平台开发并成功部署了一个自定义批处理源插件。该插件有时在预览模式下工作,但当我部署管道时总是失败,并出现以下错误:

我认为该错误具有误导性,因为该错误源自插件内的以下代码:

特别是有罪的线是d.write("numberOfRecords", Long.toString(config.numberOfRecords));。如果我删除这一行,插件可以工作,但显然不会运行transform插件的一部分。

我没有想法,预览模式下的行为似乎不稳定,而且文档(如果有的话)真的很少说最好的。我该怎么做才能让它发挥作用?

0 投票
2 回答
518 浏览

google-cloud-data-fusion - 在 Datafusion 中使用压缩文件

有没有办法将压缩文件与云数据融合一起使用。我使用 Google Storage 作为源,并在首选位置放置了一个 gzip 文件。

在牧马人转换中,我没有看到预览。当我尝试使用选择数据选择文件时,未突出显示压缩文件。当我使用未压缩的文件时,这些步骤工作正常。

我应该在争吵之前使用一些变换吗?有没有办法可以直接读取压缩文件并预览数据。在数据准备中,转换根据扩展名识别文件,但是,在数据融合中,似乎没有这样的选项。

我用的是基础版的数据融合环境,企业版有用吗?

0 投票
1 回答
405 浏览

google-cloud-data-fusion - Using a multi-character delimiter in Cloud Data fusion

I am trying to read a csv file in cloud datafusion. The csv file uses a multi-character (i.e. ~^~)delimiter. When i try to parse the column using a custom delimiter the tool only considers the first character and splits the file accordingly. I end up with more columns than what is required, plus since the data may have the character even the split is not perfect.

I tries using several patterns not just the one mentioned above, but each time its the same result

How do i parse files where the data is delimited using a multi-char delimiter. Is there a setting that can be used. Is there a separate transform that can be used to parse the file before using the wrangler?

In the assignment i am working on i an limited to use only cloud data fusion as my etl tool

0 投票
1 回答
131 浏览

dataset - 如何在 GCP Data Fusion 中摄取 Table 类型的数据集以用作 Wrangler 插件中指令“table-lookup”中的查找表

我正在尝试使用 GCP Data Fusion Wrangler Plug-in 使用 table-lookup 指令执行一些查找操作。该指令有一个要由查找引用的关联表,该表必须是表类型的数据集。我的疑问是如何在 GCP Data Fusion 中定义或摄取表,可以通过 hte table-lookup 指令正确识别。

0 投票
3 回答
2932 浏览

google-cloud-data-fusion - 在云数据融合中转换为日期

我们如何在云数据融合中将字符串转换为日期?

我有一列的值为 20191120(格式为 yyyyMMdd),我想将其作为日期加载到 bigquery 中的表中。表列数据类型也是日期。

到目前为止,我尝试的是,我使用“parse-as-simple-date”将字符串转换为时间戳,并尝试使用 format-date 将其转换为格式为“yyyy-MM-dd”,但这一步将其转换串起来,最终加载失败。我什至尝试在 o/p 模式中将列作为日期明确提及为日期。但它在运行时失败。

我尝试将其作为时间戳保留在管道中,并尝试将日期加载到 Bigquery 日期类型中。

我注意到 op 出现的错误是字段 dt_1 与 avro 整数不兼容。在加载之前,数据融合是否在内部将提取物转换为 avro。AVRO 没有导致问题的日期数据类型?

0 投票
1 回答
352 浏览

google-cloud-data-fusion - Cloud Datafusion 中的 SPARK 加入策略

在云Datafusion中,我使用连接器转换来连接两个表。

其中一个是一个大约有 87M 连接的大表,而另一个是一个只有约 250 条记录的小表。我在连接器中使用了 200 个分区。

这会导致以下故障:

org.apache.spark.SparkException:作业因阶段失败而中止:阶段 7.0 中的任务 50 失败 4 次,最近一次失败:阶段 7.0 中丢失任务 50.3(TID xxx,cluster_workerx.c.project.internal,执行程序 6): ExecutorLostFailure(由于其中一项正在运行的任务导致执行器 6 退出) 原因:执行器心跳在 133355 毫秒后超时 java.util.concurrent.ExecutionException: java.lang.RuntimeException: org.apache.spark.SparkException: Application application_xxxxx finished with failed status

仔细查看 Spark UI 的 200 个 Join 任务,87m 条记录中有近 80% 进入一个任务 O/P,该任务 O/P 因心跳错误而失败,而成功的任务几乎没有记录 O/P ~<10k记录

似乎 spark 执行了一个随机哈希连接,在 datafusion/cdap 中是否有一种方法可以强制广播连接,因为我的一个表非常小?或者我可以对集群配置进行配置更改以使此加入工作吗?

我可以在数据融合管道中进行哪些性能调整。我没有找到对配置的任何参考,在 Datafusion 文档中进行了调整