问题标签 [cascading]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
templates - templatetap 的可扩展性问题
我编写了一个级联 1.2 程序,它对传感器网络的数据进行以下处理:
- 读取具有 3 列的 CSV 文件:毫秒时间戳、事件类型(传感器数据、电池电量、传感器电源状态)、事件正文
- 将毫秒时间戳四舍五入到最接近的秒数,并在此值上进行 GroupBy
- GroupBy 事件类型
- 使用以下模板将输出写入 templatetap:“{rounded timestamp}/{event type}/”
如果日志数据量很小(~300MB),我的程序运行良好,但如果我使用 EMR 集群上传感器网络产生的实际日志数据量(~200GB/天)运行它,reducer 会继续失败带有以下消息:“任务尝试_201301160001_0003_r_00000X_0 未能报告状态 602 秒。杀戮!
如果我在模板点击中将模板设为静态(如“输出”而不是“{rounded timestamp}/{event type}/”),则作业将在 3 小时内完成而不会出现问题。
因此,问题似乎出在模板点击中!
也许是无法处理这么多动态路径?(但我的理解是,它使用默认参数随时保持约 300 个打开/活动?)
除了路径模板本身,我没有将任何参数传递给模板抽头 - 所以所有其他参数都是默认的。
我该怎么做才能使工作与“{rounded timestamp}/{event type}/”模板一起工作?
hadoop - Clojure Hadoop - 5 行 Cascalog 相当于 300 行 PIG?
在幻灯片 36 和 37 的演示文稿中,Cascalog 的作者断言,给定一组姓名和年龄的数据,例如:[name age],返回所有大于平均年龄的结果的查询是 300 行 PIG。
这是一个有效的断言吗?真的有多少行PIG?
还是他描述的问题比我描述的更大?
(免责声明——我是 Nathan 的作品、Clojure 和 Cascalog 的忠实粉丝——我只是想弄清楚一些事实)。
hadoop - 级联中的笛卡尔积
我正在开发一个级联程序,它不仅需要找到字数,还需要找到所有单词的总比例。就字数本身以及计算所有计数的总和到具有一个字段和一个元组的单独管道而言,我没有任何问题。
如果我能得到每个字数元组的总数,那么计算就没有问题了。这是一个简单的笛卡尔积......但我该怎么做呢?看起来它应该是一个没有连接字段的 CoGroup,但这是不允许的。
hadoop - 如何防止hadoop作业在损坏的输入文件上失败
我在许多输入文件上运行 hadoop 作业。但是,如果其中一个文件损坏,整个工作就会失败。
我怎样才能让工作忽略损坏的文件?也许为我写一些计数器/错误日志,但不会让整个工作失败
c++ - C++ 级联类型转换
级联类型转换时如何使类型转换工作?
下面的代码应该很简单,但是从 TypeB 到 int 的转换需要编译器自动推导出两次类型转换。但事实并非如此。
我不能简单地实现 operator int() const { return val; 在 TypeB 类上,因为这应该是一个模板类而且我不知道要转换为哪种类型。
问候
configuration - 级联:如何在配置中定义每个 map-reduce 作业?
我的代码如下。这是级联代码。它有8个工作。我不知道如何配置每个作业。下面的代码一起配置了 8 个作业。但我想做的是让最后一项工作减少。我想问如何识别这8个工作,以及如何分别配置它们?谢谢。
cascading - 级联:如何读取或写入多字符字?
如果“每个”从文件中读取 GBK 字符串并将 GBK 字符串写入文件,我该怎么办?如何定义它?
eclipse - 在 windows 中使用 Apache Cascading
我开始使用 Cascading 库,但我搜索信息,所有都是关于 linux 上的级联......我在 ubuntu 服务器中执行了很好的不耐烦示例。
但我想在 windows 中使用 eclipse 开发和测试我的应用程序......
这可能吗??我该怎么做?
谢谢
jquery - 防止级联刷新
我有一个 header.js,在其就绪部分中包含以下内容:
现在,它加载的页面“tasklist.jsp”被加载到当前页面的一个 div 中,并且应该每 30 秒刷新一次。tasklist.jsp 具有需要服务的“点击”事件,并由 header.js 中的点击事件处理。为了让这些工作正常,即使 tasklist.jsp 被加载到已经包含 header.js 的页面中,我也必须在 tasklist.jsp 中包含 header.js。然而,这会导致级联重载。我该如何防止这种情况?尝试体面的代码重用真的不可能吗?如果 header.js 应该已经在我加载我的部分的页面中,为什么我还需要包含它?