问题标签 [dataflow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1413 浏览

header - SSIS:导入文件有些带有列名,有些没有

或者可能是由于日志设备的配置不一致,我需要通过 SSIS 加载一组 csv 文件,这些文件有时会有第一行带有列名,有时不会。文件格式在其他方面相同。

日志配置似乎有可能被标准化,所以我不想浪费编程时间来打开每个文件并确定它是否有标题行,然后根据不同的方式处理它。

相反,我想指定诸如 Destination.MaxNumberOfErrors 之类的东西,这将允许每个文件最多有一个错误行(因此,如果文件中唯一的问题是标题,它就不会失败)。不过,平面文件源错误是致命的,所以我看不到让它继续运行的方法。

失败代码的含义由组件定义,但错误是致命的并且管道停止执行。在此之前可能会发布错误消息,其中包含有关失败的更多信息。

我最好的选择似乎是暂时忽略第一个数据行,等待是否可以实现更统一的配置。当然,当这个策略到位时,数据集是无效的。我应该补充一点,数据非常大,因此 ETL 例程需要尽可能高效。在我看来,如果有任何替代方案,这将禁止任何文件解析或条件拆分。

问题是是否有办法配置文件源以从这个致命错误中继续?

0 投票
1 回答
3213 浏览

ssis - SSIS需要具有2个列标题相同的平面文件输出

我正在尝试使用 SSIS 平面文件目标,但无法想出一个解决方法来让输出文件有两列命名为相同的东西。

我要求输出文件具有列标题:

每当我尝试映射源数据时,都会收到错误消息,例如“此列名称已存在”和“有多个名称为“电子邮件”的数据源列”。

最好的工作是什么?

谢谢

0 投票
1 回答
3699 浏览

xml - SSIS:使用可变数据从 XML 源创建 CSV 文件

在 SSIS 中,我尝试使用来自 Web 服务的数据来创建 csv 文件。

在我的控制流中,我创建了一个将其输出保存到用户变量的 Web 服务任务。

当 Web 服务任务完成时,它会启动一个数据流任务。

数据流任务有一个 XML 源,数据访问模式设置为“来自变量的 XML 数据”,指向(假定)具有来自 Web 服务的 XML 数据的变量。

在 DFT 之前和之后设置断点证明该变量被设置为我期望的 XML 文本。

例如,XML 看起来像这样(更改名称以保护专有信息):

该数据流任务只是处理成平面文件目标(csv 文件)。平面文件中的列映射到 XML 中的值。

但是,当我运行它时,我只得到列名,没有数据。

我已经验证了 Web 服务任务通过使用相同的 Web 服务运行另一个 Web 服务任务返回了我所期望的内容,但将该输出直接放入一个文件中。

0 投票
3 回答
1313 浏览

python - 在 Python 中具有依赖关系的惰性数据流(类似电子表格)属性

我的问题如下:我有一些 python 类具有从其他属性派生的属性;并且这些应该在计算后被缓存,并且每次更改基本属性时缓存的结果都应该失效。

我可以手动完成,但如果属性数量增加,似乎很难维护。所以我想在我的对象中有类似Makefile规则的东西,以自动跟踪需要重新计算的内容。

所需的语法和行为应该是这样的:

那么,是否有类似的东西已经可用或者我应该开始实施自己的东西?在第二种情况下,欢迎提出建议:-)

0 投票
1 回答
219 浏览

code-analysis - 支持“增量计算”的编程工具链(甚至可能是 C/C++)

我想编写算法,为大数据集准备结果。然后,当每个数据集发生变化时,增量更新所有受影响的输出。

它被称为:增量计算

是否有支持这种方法的编程工具、库、编译器、程序分析等?

PS我知道增量计算可以很容易地通过正确构造算法来“手动”实现。我只是想知道是否有工具(如程序分析器、编译器、库)支持这种方法,以使数据流依赖关系更加自动化。

0 投票
4 回答
305 浏览

java - javac数据流分析的诡异误报

我有以下形式的代码:

编译器说:

有趣的是,如果我对循环执行以下任何更改,它就会成功!

  • 将循环的内容更改为A u = null
  • 删除循环(但保留final A u = null;
  • 用经典的计数循环替换 foreach 风格的循环

这里发生了什么?

注意:我无法获得导致错误的最小示例,因此“环境”(大约 1400 位置)可能有问题。但是,我看不出有什么会干扰 的初始化t,因为t它没有写到其他地方。

有趣的事实:如果我删除它,IntelliJ IDEA 会说“变量 'u' 可以有 'final' 修饰符......”。

我使用 javac 1.6.0_26。

更新:你去吧,这个例子太小了

编译失败javac 1.6.0_26但编译在javac 1.7.0_02. 所以我想我遇到了一些邪恶的角落案例……什么?

请注意,您可以执行以下任何操作

  • 删除任何一个成员
  • 删除final里面的循环A()
  • 用普通循环替换for循环,例如for ( int i=0; i<100; i++ ) { ... }

它会编译。

0 投票
2 回答
851 浏览

labview - 为什么数据流编程不是常态?

我写了一个简单的遗传算法来进化字符串“helloworld”。我写了两次。第一次是使用类编写的。第二次只使用函数编写,其中遗传世界的整个状态从一个函数传递到下一个函数......以模仿数据流范式。令人惊讶的是,代码对这两种实现都运行良好。然而,我只有在煞费苦心地删除每一个错误后才设法让它工作,这是一个相当费力的过程。

我问自己……必须有更好的方法。使用类编写代码比使用简单的函数编写相同的代码要困难得多,而且我相信以视觉方式编写相同的代码,例如使用 labview 之类的东西比仅使用简单的函数编写要容易得多。

在某种程度上,我读到了数据流编程和可视化编程,坦率地说,以可视化、面向数据的方式编程似乎比以语句方式编程更自然和直观,这是大多数编程语言使我们能够做到的今天要做的。我的问题是..如果是这样,为什么数据流,像“labview”这样的可视化编程没有成为标准?

0 投票
1 回答
1395 浏览

magento - DataFlow 上传产品图片

我已经添加了数百个产品,我现在要做的是导入产品图像。

在我使用 DataFlow 导出的 CSV 中,我有 forimage和以下内容:small_imagethubmbnail

/IMAGE_NAME.jpgIMAGE_NAMESKU在哪里。

当我运行 DataFlow 导入时,我得到的每个图像都是:

Image does not exist.

我已将图片上传到/media/import and /media/catalog/product/import

有没有人见过这个?设法修复它?

我正在使用 Magento v1.6.1

0 投票
4 回答
3784 浏览

c# - 如果排队的项目数小于 BatchSize,如何在超时后自动调用 TriggerBatch?

使用 Dataflow CTP(在 TPL 中)

如果当前排队或推迟的项目数小于 BatchSize,是否有办法在超时后自动调用 BatchBlock.TriggerBatch?

更好的是:每次块收到新项目时,此超时应重置为 0。

0 投票
1 回答
2708 浏览

task-parallel-library - TPL Dataflow over Reactive Extensions (Rx) 的用例是什么

我正在专门研究以一种或其他方式编写一些信号处理算法,或者可能是这两者的某种组合。

性能不是一个大问题,表达意图的清晰性更为重要。

我希望实现以下“块”并组合它们:

  • 滤波器(FIR 和 IIR)
  • 相位检测器
  • 集成商
  • 搅拌机
  • 函数发生器
  • PLL(使用上述作为构建块)

我知道 Rx 可以被视为“Linq-to-streams”,而 TPL 是对并发的抽象。我还了解到 Rx 在内部使用 TPL 来管理其异步位,并且 TPL 数据流为 TPL 添加了可组合性。

所以两者都是异步的,都是可组合的,都是相当高级的(Rx moreso)。一般情况下和我上面的信号处理项目中应该在哪里使用它们?