问题标签 [cascading]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 级联函数是在单线程中作为hadoop 映射器函数执行的吗?
我正在阅读级联文档第 5.2 章函数,我想知道下面的代码会发生什么。它应该在多线程环境中正常工作吗?更普遍的问题是函数可以是多线程的吗?据我所知,单个映射器是单线程的。
具体来说,我已经测试了这样的代码,在我看来这不是线程安全的。也许我不正确理解第 (39) 页上的文档。
twitter - 烫伤:在 groupBy('field){.size} 之后如何保留其他字段?
所以我的输入数据有两个字段/列:id1 & id2,我的代码如下:
输出结果(我假设)两个字段:id2 * size。我有点想知道是否可以保留也与 id2 分组的 id1 值并将其添加为另一个字段?
hadoop - 用于更新特定列数据的 Hadoop 级联框架
我有一个mongodb
看起来像这样的集合
我有一个级联工作,它从另一个集合进行一些评估,我想通过“<code>Id”只更新“<code>verificationStatus”和“<code>updateTime”列而不干扰其他列
但是在级联中,如果我设置这两列,我将丢失其他列数据。我只剩下这样的东西了。
SinkMode UPDATE
适用于逐个事务更新事务,但不适用于单个列数据。
我该如何解决这个问题?
PS:加入或合并不起作用。由于 Source 和 Sink 不能通过级联设计指向同一个集合。
hadoop - 级联框架与 Talend 等 ETL 工具
我们一直在使用级联框架来创建 ETL。
级联给出。
- 优化连接
- 并行运行作业
- 创建检查点
- 开发人员可以使用他们喜欢的语言(java、ruby、scala、clojure)
- 单元测试。
现在我们有两个选项将一些 X ETL(成本高昂)作业转换为 hadoop 作业
- 级联工作流程。
- 人才招聘。
我的问题是。
- Talend 使用 pig、hive 等作为组件来创建作业。那么我们在性能上是否有一些好处,或者 talend 有没有即兴发挥呢?
- 就 Talend 而言,我们是否需要担心单元测试(Cascading 框架提供哪些)?
- 如果我们选择 Talend 而不是级联来创建作业(将 X ETL 转换为 hadoop 作业),那么它是一个不错的选择。
将 X ETL 转换为级联工作流将需要创建给定 X ETL 中可用的所有组件,但这将是一次性活动。然后我们需要考虑 Talend Studio 提供的其他功能,例如:
/li>- 就可维护性而言,级联作业管理得很好,任何人都可以提供一些有关 talend 的信息。
底线是我正在创建一个从 X ETL 到 hadoop 作业的转换工具。我需要从 Cascading 框架或 Talend 中进行选择。
asp.net - 如何将级联参数从 ASP.NET 传递到 SSRS
我正在尝试构建将用于显示 SSRS 报告的 Web 应用程序 (ASP.NET)。
我的报告有 4 个级联参数 - A、B、C 和 D。C 和 D 在逻辑上“依赖”于 A 的值(这意味着 C 和 D 的数据集根据 A 的值进行过滤)。以编程方式(在 SSRS 中)B 依赖于 A,C 依赖于 B,D 依赖于 C。
我正在尝试通过以下方式提前设置它们:
当我这样做时,我得到一个错误,即 TopX 参数没有价值。这是第二个参数 - 它有一个默认值 (="Top1")。
有人可以帮忙吗?有什么方法可以动态查询 SSRS 报告中每个参数可用的值,然后选择一个值?
hadoop - Hadoop级联:当cogroup管道两次时,CascadeException“级联中不允许循环”
我正在尝试编写一个由两个流程组成的Casacading(v1.2) casade ( http://docs.cascading.org/cascading/1.2/userguide/htmlsingle/#N20844 ):
1) 第一个流将url
s 输出到一个 db 表,(在该表中,它们通过自动递增的 id 值自动分配 id)。此流程还将成对的 url 输出到SequenceFile
字段名称为“ urlTo
”、“ urlFrom
”的字段中。
2) 第二个流程从这两个源读取并尝试CoGroup
对“ urlTo
”(来自 SequenceFile)和“ url
”(来自 db 源)执行一次操作,以获取id
每个“ ”的 db 记录“ urlTo
”。
然后它对CoGroup
“ urlFrom
”和“ ”执行一个操作以获取每个“ ”url
的数据库记录“ ”。id
urlFrom
这两个流程单独工作 - 如果我在运行第二个流程之前在第一个流程上调用 flow.complete() 。但是如果我把这两个流放在一个级联对象中,我会得到错误
关于尝试配置级联。
我可以看到它来自addEdgeFor
函数,CascadeConnector
但我不清楚如何解决这个问题。
我以前从未使用过Cascade
/ CascadeConnector
。有什么我想念的吗?
hadoop - 如何在 Cascading 中读写二进制文件?
我想以二进制格式加载一些文件(例如 jpegs,但可以是任何二进制格式),以某种方式对其进行操作并将其写回。我想在 hadoop 上做到这一点,我想在 Cascading 框架上编写它。
是否有可用于二进制格式文件的二进制接收器/选项卡?还有其他方法吗?
我什么也找不到。我能想到的唯一选择可能是我应该实现自己的hadoop InputFormat,它将文件读取为字节数组或java ByteBuffer,但我觉得没有内置解决方案很奇怪(因为我确定我'不是第一个遇到这个问题的人)。
如果有人有任何指示,将不胜感激
hadoop - 级联 + libjars = ClassNotFoundException。有时
我正在运行将 DistributedCache 用于依赖 jar 的 Cascading(实际上是 Scalding)hadoop 作业。
第一次它工作正常(意味着类路径设置正确)但随后它开始失败并出现 ClassNotFoundException:
有没有其他人在分布式缓存中使用级联和罐子取得成功
此消息似乎暗示 Cascading 对分布式缓存 jar 进行了一些内部处理。你能对此有所了解吗?
编辑:我在 Hadoop 1.0.3 上使用 Cascading 2.1.6
mysql - Loading data from Hadoop Cascading Source into MySQL Sink
I'm trying to integrate writing data in from a Cascading source into MySQL so I wonder if there's an easy sink available to take the tab delimited data that's coming from the source and just doing a couple SQL statements to update a table.
I'm new to Cascading so I'd love any help here!
vb.net - 循环遍历 vb.net 中的级联组合框项目
网页中有三个级联组合框。假设每个人都有 3 个项目。在加载页面时,所有的都设置为索引零。但是最后一个(第三个组合框)有一些值,即使前两个组合框没有改变。值如何变化如下所示。
最后,这个网页被加载到vb.net 中的网络浏览器控件中。在 Web 浏览器中,通过触发 index changed 事件来更改值。
我还有一页,其中有 4 个组合框,它们也是级联的。
我必须通过循环在这两个页面中更改的所有索引来获取所有可能的值。
组合框的数量可能因页面而异。我知道计数,但我需要一种通用方法来检索所有可能的值。
如何以通用方式通过循环获取所有组合框的值,如下所示?
值应采用如下形式