问题标签 [dataflow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
header - SSIS:导入文件有些带有列名,有些没有
或者可能是由于日志设备的配置不一致,我需要通过 SSIS 加载一组 csv 文件,这些文件有时会有第一行带有列名,有时不会。文件格式在其他方面相同。
日志配置似乎有可能被标准化,所以我不想浪费编程时间来打开每个文件并确定它是否有标题行,然后根据不同的方式处理它。
相反,我想指定诸如 Destination.MaxNumberOfErrors 之类的东西,这将允许每个文件最多有一个错误行(因此,如果文件中唯一的问题是标题,它就不会失败)。不过,平面文件源错误是致命的,所以我看不到让它继续运行的方法。
失败代码的含义由组件定义,但错误是致命的并且管道停止执行。在此之前可能会发布错误消息,其中包含有关失败的更多信息。
我最好的选择似乎是暂时忽略第一个数据行,等待是否可以实现更统一的配置。当然,当这个策略到位时,数据集是无效的。我应该补充一点,数据非常大,因此 ETL 例程需要尽可能高效。在我看来,如果有任何替代方案,这将禁止任何文件解析或条件拆分。
问题是是否有办法配置文件源以从这个致命错误中继续?
ssis - SSIS需要具有2个列标题相同的平面文件输出
我正在尝试使用 SSIS 平面文件目标,但无法想出一个解决方法来让输出文件有两列命名为相同的东西。
我要求输出文件具有列标题:
每当我尝试映射源数据时,都会收到错误消息,例如“此列名称已存在”和“有多个名称为“电子邮件”的数据源列”。
最好的工作是什么?
谢谢
xml - SSIS:使用可变数据从 XML 源创建 CSV 文件
在 SSIS 中,我尝试使用来自 Web 服务的数据来创建 csv 文件。
在我的控制流中,我创建了一个将其输出保存到用户变量的 Web 服务任务。
当 Web 服务任务完成时,它会启动一个数据流任务。
数据流任务有一个 XML 源,数据访问模式设置为“来自变量的 XML 数据”,指向(假定)具有来自 Web 服务的 XML 数据的变量。
在 DFT 之前和之后设置断点证明该变量被设置为我期望的 XML 文本。
例如,XML 看起来像这样(更改名称以保护专有信息):
该数据流任务只是处理成平面文件目标(csv 文件)。平面文件中的列映射到 XML 中的值。
但是,当我运行它时,我只得到列名,没有数据。
我已经验证了 Web 服务任务通过使用相同的 Web 服务运行另一个 Web 服务任务返回了我所期望的内容,但将该输出直接放入一个文件中。
python - 在 Python 中具有依赖关系的惰性数据流(类似电子表格)属性
我的问题如下:我有一些 python 类具有从其他属性派生的属性;并且这些应该在计算后被缓存,并且每次更改基本属性时缓存的结果都应该失效。
我可以手动完成,但如果属性数量增加,似乎很难维护。所以我想在我的对象中有类似Makefile规则的东西,以自动跟踪需要重新计算的内容。
所需的语法和行为应该是这样的:
那么,是否有类似的东西已经可用或者我应该开始实施自己的东西?在第二种情况下,欢迎提出建议:-)
java - javac数据流分析的诡异误报
我有以下形式的代码:
编译器说:
有趣的是,如果我对循环执行以下任何更改,它就会成功!
- 将循环的内容更改为
A u = null
- 删除循环(但保留
final A u = null;
) - 用经典的计数循环替换 foreach 风格的循环
这里发生了什么?
注意:我无法获得导致错误的最小示例,因此“环境”(大约 1400 位置)可能有问题。但是,我看不出有什么会干扰 的初始化t
,因为t
它没有写到其他地方。
有趣的事实:如果我删除它,IntelliJ IDEA 会说“变量 'u' 可以有 'final' 修饰符......”。
我使用 javac 1.6.0_26。
更新:你去吧,这个例子太小了:
编译失败javac 1.6.0_26
但编译在javac 1.7.0_02
. 所以我想我遇到了一些邪恶的角落案例……什么?
请注意,您可以执行以下任何操作
- 删除任何一个成员
- 删除
final
里面的循环A()
- 用普通循环替换
for
循环,例如for ( int i=0; i<100; i++ ) { ... }
它会编译。
labview - 为什么数据流编程不是常态?
我写了一个简单的遗传算法来进化字符串“helloworld”。我写了两次。第一次是使用类编写的。第二次只使用函数编写,其中遗传世界的整个状态从一个函数传递到下一个函数......以模仿数据流范式。令人惊讶的是,代码对这两种实现都运行良好。然而,我只有在煞费苦心地删除每一个错误后才设法让它工作,这是一个相当费力的过程。
我问自己……必须有更好的方法。使用类编写代码比使用简单的函数编写相同的代码要困难得多,而且我相信以视觉方式编写相同的代码,例如使用 labview 之类的东西比仅使用简单的函数编写要容易得多。
在某种程度上,我读到了数据流编程和可视化编程,坦率地说,以可视化、面向数据的方式编程似乎比以语句方式编程更自然和直观,这是大多数编程语言使我们能够做到的今天要做的。我的问题是..如果是这样,为什么数据流,像“labview”这样的可视化编程没有成为标准?
magento - DataFlow 上传产品图片
我已经添加了数百个产品,我现在要做的是导入产品图像。
在我使用 DataFlow 导出的 CSV 中,我有 forimage
和以下内容:small_image
thubmbnail
/IMAGE_NAME.jpg
IMAGE_NAME
SKU在哪里。
当我运行 DataFlow 导入时,我得到的每个图像都是:
Image does not exist
.
我已将图片上传到/media/import and
/media/catalog/product/import
有没有人见过这个?设法修复它?
我正在使用 Magento v1.6.1
c# - 如果排队的项目数小于 BatchSize,如何在超时后自动调用 TriggerBatch?
使用 Dataflow CTP(在 TPL 中)
如果当前排队或推迟的项目数小于 BatchSize,是否有办法在超时后自动调用 BatchBlock.TriggerBatch?
更好的是:每次块收到新项目时,此超时应重置为 0。
task-parallel-library - TPL Dataflow over Reactive Extensions (Rx) 的用例是什么
我正在专门研究以一种或其他方式编写一些信号处理算法,或者可能是这两者的某种组合。
性能不是一个大问题,表达意图的清晰性更为重要。
我希望实现以下“块”并组合它们:
- 滤波器(FIR 和 IIR)
- 相位检测器
- 集成商
- 搅拌机
- 函数发生器
- PLL(使用上述作为构建块)
我知道 Rx 可以被视为“Linq-to-streams”,而 TPL 是对并发的抽象。我还了解到 Rx 在内部使用 TPL 来管理其异步位,并且 TPL 数据流为 TPL 添加了可组合性。
所以两者都是异步的,都是可组合的,都是相当高级的(Rx moreso)。一般情况下和我上面的信号处理项目中应该在哪里使用它们?