问题标签 [data-pipeline]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

120 问题

0 投票

1 回答

35 浏览

tensorflow - 如何使用 tf.Dataset 将数据加载到多个 GPU 中？

目前，我正在使用 get_next() 将数据传递到多个 GPU。有没有更好的方法将数据馈送到多个 GPU 中？

2019-05-01T19:50:51.473

0 投票

1 回答

64 浏览

python - 将文件拆分为小块并进行处理

我有三个文件，每个文件包含近 30 万条记录。已经编写了一个 python 脚本来处理这些具有一些业务逻辑的文件，并能够成功创建输出文件。此过程在 5 分钟内完成。

我正在使用相同的脚本来处理具有大量数据的文件（所有三个输入文件都包含大约 3000 万条记录）。现在处理需要几个小时并保持运行很长时间。

因此，我正在考虑根据唯一 ID 的最后两位数字将文件分成 100 个小块，并对其进行并行处理。是否有任何数据管道包可用于执行此操作？

顺便说一句，我在我的 VDI 机器上运行这个过程。

python data-pipeline

2019-06-21T01:35:48.890

0 投票

2 回答

492 浏览

amazon-redshift - 无法让 AWS Data Pipeline 连接到 Redshift

我有一个想在 Redshift 中定期运行的查询。我已经为它设置了一个 AWS 数据管道。

我的问题是我无法弄清楚如何访问 Redshift。我不断收到“无法建立连接”错误。我有一个 Ec2Resource，我尝试从集群的 VPC 中包含一个子网，并使用 Redshift 使用的安全组 ID，同时将该 sg-id 添加到规则的入站部分。没运气。

有没有人可以从头开始设置数据管道以针对 Redshift 运行？

我目前如何设置管道

红移数据库
- 连接字符串：jdbc:redshift://[host]:[port]/[database]
- 用户名密码
Ec2资源
- 资源角色：DataPipelineDefaultResourceRole
- 角色：DataPipelineDefaultRole
- 结束时间：20 分钟
SqlActivity
- 数据库：[数据库]（来自连接字符串）
- 运行于：Ec2Resource
- 脚本：SQL查询

错误信息

无法建立与 jdbc 的连接：postgresql://[host]:[port]/[database] 连接被拒绝。检查主机名和端口是否正确以及 postmaster 是否接受 TCP/IP 连接。

amazon-redshift aws-security-group data-pipeline

2019-06-23T21:27:55.473

0 投票

2 回答

1937 浏览

google-cloud-platform - Google 数据融合执行错误“INVALID_ARGUMENT：‘DISKS_TOTAL_GB’配额不足。请求的 3000.0，可用的 2048.0。”

我正在尝试使用 Google Data Fusion Free 版本将一个简单的 CSV 文件从 GCS 加载到 BQ。管道因错误而失败。它读到

Mapreduce 和 Spark 执行管道重复相同的错误。感谢解决此问题的任何帮助。谢谢

问候 KA

google-cloud-platform data-processing data-ingestion google-cloud-data-fusion data-pipeline

2019-11-22T15:10:06.397

0 投票

2 回答

1100 浏览

bigdata - matillion和apache气流之间的区别

我想使用 ETL 服务，但我被困在 Apache Airflow 和 Matillion 之间。

他们是一样的吗？
主要区别是什么？

bigdata airflow data-pipeline matillion

2019-11-27T23:30:30.247

0 投票

1 回答

245 浏览

python - 我可以使用 Prometheus 列出正在处理或已经处理的文件吗？

我需要知道正在处理一些文件的应用程序的每个服务的时间。所以我的意思是：同一个文件通过每个服务，我需要知道每个管道时间。Prometheus 和 Grafana 等有可能做到这一点吗？还是有其他工具呢？甚至......我需要自己实现它吗？（Obs：服务在 Python 中运行）

python logging prometheus grafana data-pipeline

2019-12-10T13:07:49.500

0 投票

1 回答

1045 浏览

amazon-web-services - 架构未与 AWS Glue 爬网程序正确合并

我目前正在构建一个数据湖，我每天在其中运行 AWS GlueJobs 以复制我们数据库中的数据并使其可通过 AWS Athena 进行查询。因为我获取的数据架构经常发生变化，所以我会定期使用 Glue Crawler 对它们进行爬网。不幸的是，当我连续两天运行爬虫并且架构更改时，我收到有关不兼容架构的错误：

这是我们的爬虫在云形成中的代码：

我的猜测是，我的爬虫的模式合并行为在开头的行中设置错误，Configuration但我找不到修复。

amazon-web-services aws-glue data-pipeline

2019-12-23T13:20:12.550

0 投票

1 回答

608 浏览

python - 我如何解决 InvalidArgumentError: cycle_length must be > 0 when load tfrecords file

我开始使用tf.TFRecord and tf.Example. 但是tensorflow.python.framework.errors_impl.InvalidArgumentError当我尝试从保存的 tfrecords 文件加载数据时出现错误。我一直在为这个问题寻找很多解决方案，但没有奏效。

这是完整的错误

谁能帮我？

python python-3.x tensorflow tfrecord data-pipeline

2020-01-16T17:58:42.057

0 投票

2 回答

389 浏览

java - 在 apache spark 中组合来自不同来源的数据

我正在为一个项目探索 apache spark，我想从不同来源获取数据 - 数据库表（postgres 和 BigQuery）和文本。数据将被处理并输入另一个表进行分析。我选择的编程语言是Java，但我也在探索Python。有人可以告诉我是否可以直接读入spark进行处理吗？我需要在数据库表和 Spark 集群之间建立某种连接器吗？

提前致谢。

java postgresql apache-spark google-bigquery data-pipeline

2020-01-16T21:49:29.303

0 投票

1 回答

111 浏览

python - 如何使用 tf.data 创建图像序列样本？

我想使用 tf.data API 创建图像序列样本。但到目前为止，似乎没有简单的方法可以连接多个图像以形成单个样本。我尝试使用 dataset.window 函数，它将我的图像正确分组。但我不知道如何连接它们。

我知道我可以将图像序列保存为 TFRecords，但这会使我的数据管道更加不灵活，并且会消耗大量内存。

我的输入批次应具有 N x W x H x T x C 的形式（N：样本数 W：图像宽度 H：图像高度 T：图像序列长度 C：图像通道）。

python image tensorflow data-pipeline

2020-01-19T11:11:17.277

1 2 3 4 5 6 7 8 9 10

问题标签 [data-pipeline]

Reference