问题标签 [data-pipeline]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
35 浏览

tensorflow - 如何使用 tf.Dataset 将数据加载到多个 GPU 中?

目前,我正在使用 get_next() 将数据传递到多个 GPU。有没有更好的方法将数据馈送到多个 GPU 中?

0 投票
1 回答
64 浏览

python - 将文件拆分为小块并进行处理

我有三个文件,每个文件包含近 30 万条记录。已经编写了一个 python 脚本来处理这些具有一些业务逻辑的文件,并能够成功创建输出文件。此过程在 5 分钟内完成。

我正在使用相同的脚本来处理具有大量数据的文件(所有三个输入文件都包含大约 3000 万条记录)。现在处理需要几个小时并保持运行很长时间。

因此,我正在考虑根据唯一 ID 的最后两位数字将文件分成 100 个小块,并对其进行并行处理。是否有任何数据管道包可用于执行此操作?

顺便说一句,我在我的 VDI 机器上运行这个过程。

0 投票
2 回答
492 浏览

amazon-redshift - 无法让 AWS Data Pipeline 连接到 Redshift

我有一个想在 Redshift 中定期运行的查询。我已经为它设置了一个 AWS 数据管道。

我的问题是我无法弄清楚如何访问 Redshift。我不断收到“无法建立连接”错误。我有一个 Ec2Resource,我尝试从集群的 VPC 中包含一个子网,并使用 Redshift 使用的安全组 ID,同时将该 sg-id 添加到规则的入站部分。没运气。

有没有人可以从头开始设置数据管道以针对 Redshift 运行?

我目前如何设置管道

  • 红移数据库
    • 连接字符串:jdbc:redshift://[host]:[port]/[database]
    • 用户名密码
  • Ec2资源
    • 资源角色:DataPipelineDefaultResourceRole
    • 角色:DataPipelineDefaultRole
    • 结束时间:20 分钟
  • SqlActivity
    • 数据库:[数据库](来自连接字符串)
    • 运行于:Ec2Resource
    • 脚本:SQL查询

错误信息

无法建立与 jdbc 的连接:postgresql://[host]:[port]/[database] 连接被拒绝。检查主机名和端口是否正确以及 postmaster 是否接受 TCP/IP 连接。

0 投票
2 回答
1937 浏览

google-cloud-platform - Google 数据融合执行错误“INVALID_ARGUMENT:‘DISKS_TOTAL_GB’配额不足。请求的 3000.0,可用的 2048.0。”

我正在尝试使用 Google Data Fusion Free 版本将一个简单的 CSV 文件从 GCS 加载到 BQ。管道因错误而失败。它读到

Mapreduce 和 Spark 执行管道重复相同的错误。感谢解决此问题的任何帮助。谢谢

问候 KA

0 投票
2 回答
1100 浏览

bigdata - matillion和apache气流之间的区别

我想使用 ETL 服务,但我被困在 Apache Airflow 和 Matillion 之间。

  • 他们是一样的吗?
  • 主要区别是什么?
0 投票
1 回答
245 浏览

python - 我可以使用 Prometheus 列出正在处理或已经处理的文件吗?

我需要知道正在处理一些文件的应用程序的每个服务的时间。所以我的意思是:同一个文件通过每个服务,我需要知道每个管道时间。Prometheus 和 Grafana 等有可能做到这一点吗?还是有其他工具呢?甚至......我需要自己实现它吗?(Obs:服务在 Python 中运行)

0 投票
1 回答
1045 浏览

amazon-web-services - 架构未与 AWS Glue 爬网程序正确合并

我目前正在构建一个数据湖,我每天在其中运行 AWS GlueJobs 以复制我们数据库中的数据并使其可通过 AWS Athena 进行查询。因为我获取的数据架构经常发生变化,所以我会定期使用 Glue Crawler 对它们进行爬网。不幸的是,当我连续两天运行爬虫并且架构更改时,我收到有关不兼容架构的错误:

这是我们的爬虫在云形成中的代码:

我的猜测是,我的爬虫的模式合并行为在开头的行中设置错误,Configuration但我找不到修复。

0 投票
1 回答
608 浏览

python - 我如何解决 InvalidArgumentError: cycle_length must be > 0 when load tfrecords file

我开始使用tf.TFRecord and tf.Example. 但是tensorflow.python.framework.errors_impl.InvalidArgumentError当我尝试从保存的 tfrecords 文件加载数据时出现错误。我一直在为这个问题寻找很多解决方案,但没有奏效。

这是完整的错误

谁能帮我?

0 投票
2 回答
389 浏览

java - 在 apache spark 中组合来自不同来源的数据

我正在为一个项目探索 apache spark,我想从不同来源获取数据 - 数据库表(postgres 和 BigQuery)和文本。数据将被处理并输入另一个表进行分析。我选择的编程语言是Java,但我也在探索Python。有人可以告诉我是否可以直接读入spark进行处理吗?我需要在数据库表和 Spark 集群之间建立某种连接器吗?

提前致谢。

0 投票
1 回答
111 浏览

python - 如何使用 tf.data 创建图像序列样本?

我想使用 tf.data API 创建图像序列样本。但到目前为止,似乎没有简单的方法可以连接多个图像以形成单个样本。我尝试使用 dataset.window 函数,它将我的图像正确分组。但我不知道如何连接它们。

我知道我可以将图像序列保存为 TFRecords,但这会使我的数据管道更加不灵活,并且会消耗大量内存。

我的输入批次应具有 N x W x H x T x C 的形式(N:样本数 W:图像宽度 H:图像高度 T:图像序列长度 C:图像通道)。