“cdap”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

320 浏览

hadoop - 用于从 Sftp 服务器读取数据的 CDAP Source 插件

我想通过使用 cdap 源插件来读取可供 Sftp 服务器使用的 csv 文件。

我遇到了同样的FTP Batch Source插件。但是当运行这个时，我遇到了异常。

我正在使用以下版本的库，这也是一个限制。

Hadoop - 2.7.3
Spark - 2.3.0

我也遇到了这个问题，它建议使用这个并设置 proeprtyfs.sftp.impl来org.apache.hadoop.fs.sftp.SFTPFileSystem解决这个问题，但不确定如何使用上面的代码并设置这个 proeprty。

hadoop cdap

2019-11-04T06:30:55.730

0 投票

1 回答

442 浏览

google-cloud-storage - 如何使用 CDAP 创建从 BigQuery 到 Google Storage 的 ETL？

我在我的 Google Cloud 环境中设置 CDAP，但在执行以下管道时遇到问题：在 BigQuery 上运行查询并将结果保存在 Google Storage 上的 CSV 文件中。

我的过程是：

使用Google Marketplace 上的CDAP OSS 映像安装 CDAP 。
构建以下管道：

凭据密钥具有所有者权限，我可以使用“预览”选项访问查询结果。

管道结果：

文件：

_SUCCESS（空）
part-r-00000（查询结果）

没有生成 csv 文件，我也找不到可以在 CDAP 中为输出文件设置名称的地方。我错过了任何配置步骤吗？

更新：

我们最终放弃了 CDAP，而使用了 Google DataFlow。

2019-11-08T20:51:38.213

0 投票

1 回答

230 浏览

xml - 使用云数据融合将 xml 数据加载到大查询接收器时面临问题

我正在尝试通过使用云数据融合将 xml 文件加载到大查询数据接收器中。我无法加载这个特定的 xml 。

xml google-cloud-platform google-cloud-data-fusion cdap google-bigquery

2019-11-14T14:31:59.243

0 投票

1 回答

228 浏览

plugins - 无法上传自定义插件

我创建了一个自定义插件，要上传到基于 CDAP 平台的 Google Cloud Data Fusion 平台。我遵循了开发和部署插件的说明，但是当我尝试将相应的 Json 配置文件（由 IntelliJ 本身通过 CDAP Maven 工件生成）与以下错误相关联时，上传失败：

如果我删除对父工件的引用，则会加载自定义插件，但它既不会显示为批处理插件，也不会显示为流插件（我可以理解这一点，我正在删除父引用）。可能是什么错误？

plugins google-cloud-data-fusion cdap

2019-11-18T10:09:44.973

0 投票

1 回答

77 浏览

dataset - 在 KeyValueTable 中写入键失败

我已经为 Google Data Fusion 上的 CDAP 平台开发并成功部署了一个自定义批处理源插件。该插件有时在预览模式下工作，但当我部署管道时总是失败，并出现以下错误：

我认为该错误具有误导性，因为该错误源自插件内的以下代码：

特别是有罪的线是d.write("numberOfRecords", Long.toString(config.numberOfRecords));。如果我删除这一行，插件可以工作，但显然不会运行transform插件的一部分。

我没有想法，预览模式下的行为似乎不稳定，而且文档（如果有的话）真的很少说最好的。我该怎么做才能让它发挥作用？

dataset key-value google-cloud-data-fusion cdap

2019-11-20T17:37:12.893

0 投票

2 回答

518 浏览

google-cloud-data-fusion - 在 Datafusion 中使用压缩文件

有没有办法将压缩文件与云数据融合一起使用。我使用 Google Storage 作为源，并在首选位置放置了一个 gzip 文件。

在牧马人转换中，我没有看到预览。当我尝试使用选择数据选择文件时，未突出显示压缩文件。当我使用未压缩的文件时，这些步骤工作正常。

我应该在争吵之前使用一些变换吗？有没有办法可以直接读取压缩文件并预览数据。在数据准备中，转换根据扩展名识别文件，但是，在数据融合中，似乎没有这样的选项。

我用的是基础版的数据融合环境，企业版有用吗？

google-cloud-data-fusion cdap

2019-11-25T12:03:43.603

0 投票

1 回答

405 浏览

google-cloud-data-fusion - Using a multi-character delimiter in Cloud Data fusion

I am trying to read a csv file in cloud datafusion. The csv file uses a multi-character (i.e. ~^~)delimiter. When i try to parse the column using a custom delimiter the tool only considers the first character and splits the file accordingly. I end up with more columns than what is required, plus since the data may have the character even the split is not perfect.

I tries using several patterns not just the one mentioned above, but each time its the same result

How do i parse files where the data is delimited using a multi-char delimiter. Is there a setting that can be used. Is there a separate transform that can be used to parse the file before using the wrangler?

In the assignment i am working on i an limited to use only cloud data fusion as my etl tool

google-cloud-data-fusion cdap

2019-11-25T14:25:47.847

0 投票

1 回答

131 浏览

dataset - 如何在 GCP Data Fusion 中摄取 Table 类型的数据集以用作 Wrangler 插件中指令“table-lookup”中的查找表

我正在尝试使用 GCP Data Fusion Wrangler Plug-in 使用 table-lookup 指令执行一些查找操作。该指令有一个要由查找引用的关联表，该表必须是表类型的数据集。我的疑问是如何在 GCP Data Fusion 中定义或摄取表，可以通过 hte table-lookup 指令正确识别。

dataset lookup google-cloud-data-fusion cdap

2019-11-27T09:10:39.783

0 投票

3 回答

2932 浏览

google-cloud-data-fusion - 在云数据融合中转换为日期

我们如何在云数据融合中将字符串转换为日期？

我有一列的值为 20191120（格式为 yyyyMMdd），我想将其作为日期加载到 bigquery 中的表中。表列数据类型也是日期。

到目前为止，我尝试的是，我使用“parse-as-simple-date”将字符串转换为时间戳，并尝试使用 format-date 将其转换为格式为“yyyy-MM-dd”，但这一步将其转换串起来，最终加载失败。我什至尝试在 o/p 模式中将列作为日期明确提及为日期。但它在运行时失败。

我尝试将其作为时间戳保留在管道中，并尝试将日期加载到 Bigquery 日期类型中。

我注意到 op 出现的错误是字段 dt_1 与 avro 整数不兼容。在加载之前，数据融合是否在内部将提取物转换为 avro。AVRO 没有导致问题的日期数据类型？

google-cloud-data-fusion cdap

2019-12-07T11:55:02.430

0 投票

1 回答

352 浏览

google-cloud-data-fusion - Cloud Datafusion 中的 SPARK 加入策略

在云Datafusion中，我使用连接器转换来连接两个表。

其中一个是一个大约有 87M 连接的大表，而另一个是一个只有约 250 条记录的小表。我在连接器中使用了 200 个分区。

这会导致以下故障：

org.apache.spark.SparkException：作业因阶段失败而中止：阶段 7.0 中的任务 50 失败 4 次，最近一次失败：阶段 7.0 中丢失任务 50.3（TID xxx，cluster_workerx.c.project.internal，执行程序 6）： ExecutorLostFailure（由于其中一项正在运行的任务导致执行器 6 退出）原因：执行器心跳在 133355 毫秒后超时 java.util.concurrent.ExecutionException: java.lang.RuntimeException: org.apache.spark.SparkException: Application application_xxxxx finished with failed status

仔细查看 Spark UI 的 200 个 Join 任务，87m 条记录中有近 80% 进入一个任务 O/P，该任务 O/P 因心跳错误而失败，而成功的任务几乎没有记录 O/P ~<10k记录

似乎 spark 执行了一个随机哈希连接，在 datafusion/cdap 中是否有一种方法可以强制广播连接，因为我的一个表非常小？或者我可以对集群配置进行配置更改以使此加入工作吗？

我可以在数据融合管道中进行哪些性能调整。我没有找到对配置的任何参考，在 Datafusion 文档中进行了调整

google-cloud-data-fusion cdap

2020-01-10T07:17:50.970

问题标签 [cdap]

更新：

Reference