问题标签 [data-pipeline]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tensorflow - 如何使用 tf.Dataset 将数据加载到多个 GPU 中?
目前,我正在使用 get_next() 将数据传递到多个 GPU。有没有更好的方法将数据馈送到多个 GPU 中?
python - 将文件拆分为小块并进行处理
我有三个文件,每个文件包含近 30 万条记录。已经编写了一个 python 脚本来处理这些具有一些业务逻辑的文件,并能够成功创建输出文件。此过程在 5 分钟内完成。
我正在使用相同的脚本来处理具有大量数据的文件(所有三个输入文件都包含大约 3000 万条记录)。现在处理需要几个小时并保持运行很长时间。
因此,我正在考虑根据唯一 ID 的最后两位数字将文件分成 100 个小块,并对其进行并行处理。是否有任何数据管道包可用于执行此操作?
顺便说一句,我在我的 VDI 机器上运行这个过程。
amazon-redshift - 无法让 AWS Data Pipeline 连接到 Redshift
我有一个想在 Redshift 中定期运行的查询。我已经为它设置了一个 AWS 数据管道。
我的问题是我无法弄清楚如何访问 Redshift。我不断收到“无法建立连接”错误。我有一个 Ec2Resource,我尝试从集群的 VPC 中包含一个子网,并使用 Redshift 使用的安全组 ID,同时将该 sg-id 添加到规则的入站部分。没运气。
有没有人可以从头开始设置数据管道以针对 Redshift 运行?
我目前如何设置管道
- 红移数据库
- 连接字符串:
jdbc:redshift://[host]:[port]/[database]
- 用户名密码
- 连接字符串:
- Ec2资源
- 资源角色:DataPipelineDefaultResourceRole
- 角色:DataPipelineDefaultRole
- 结束时间:20 分钟
- SqlActivity
- 数据库:[数据库](来自连接字符串)
- 运行于:Ec2Resource
- 脚本:SQL查询
错误信息
无法建立与 jdbc 的连接:postgresql://[host]:[port]/[database] 连接被拒绝。检查主机名和端口是否正确以及 postmaster 是否接受 TCP/IP 连接。
google-cloud-platform - Google 数据融合执行错误“INVALID_ARGUMENT:‘DISKS_TOTAL_GB’配额不足。请求的 3000.0,可用的 2048.0。”
我正在尝试使用 Google Data Fusion Free 版本将一个简单的 CSV 文件从 GCS 加载到 BQ。管道因错误而失败。它读到
Mapreduce 和 Spark 执行管道重复相同的错误。感谢解决此问题的任何帮助。谢谢
问候 KA
bigdata - matillion和apache气流之间的区别
我想使用 ETL 服务,但我被困在 Apache Airflow 和 Matillion 之间。
- 他们是一样的吗?
- 主要区别是什么?
python - 我可以使用 Prometheus 列出正在处理或已经处理的文件吗?
我需要知道正在处理一些文件的应用程序的每个服务的时间。所以我的意思是:同一个文件通过每个服务,我需要知道每个管道时间。Prometheus 和 Grafana 等有可能做到这一点吗?还是有其他工具呢?甚至......我需要自己实现它吗?(Obs:服务在 Python 中运行)
amazon-web-services - 架构未与 AWS Glue 爬网程序正确合并
我目前正在构建一个数据湖,我每天在其中运行 AWS GlueJobs 以复制我们数据库中的数据并使其可通过 AWS Athena 进行查询。因为我获取的数据架构经常发生变化,所以我会定期使用 Glue Crawler 对它们进行爬网。不幸的是,当我连续两天运行爬虫并且架构更改时,我收到有关不兼容架构的错误:
这是我们的爬虫在云形成中的代码:
我的猜测是,我的爬虫的模式合并行为在开头的行中设置错误,Configuration
但我找不到修复。
python - 我如何解决 InvalidArgumentError: cycle_length must be > 0 when load tfrecords file
我开始使用tf.TFRecord and tf.Example
. 但是tensorflow.python.framework.errors_impl.InvalidArgumentError
当我尝试从保存的 tfrecords 文件加载数据时出现错误。我一直在为这个问题寻找很多解决方案,但没有奏效。
这是完整的错误
谁能帮我?
java - 在 apache spark 中组合来自不同来源的数据
我正在为一个项目探索 apache spark,我想从不同来源获取数据 - 数据库表(postgres 和 BigQuery)和文本。数据将被处理并输入另一个表进行分析。我选择的编程语言是Java,但我也在探索Python。有人可以告诉我是否可以直接读入spark进行处理吗?我需要在数据库表和 Spark 集群之间建立某种连接器吗?
提前致谢。
python - 如何使用 tf.data 创建图像序列样本?
我想使用 tf.data API 创建图像序列样本。但到目前为止,似乎没有简单的方法可以连接多个图像以形成单个样本。我尝试使用 dataset.window 函数,它将我的图像正确分组。但我不知道如何连接它们。
我知道我可以将图像序列保存为 TFRecords,但这会使我的数据管道更加不灵活,并且会消耗大量内存。
我的输入批次应具有 N x W x H x T x C 的形式(N:样本数 W:图像宽度 H:图像高度 T:图像序列长度 C:图像通道)。