问题标签 [cascalog]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
2290 浏览

hadoop - Clojure Hadoop - 5 行 Cascalog 相当于 300 行 PIG?

在幻灯片 36 和 37 的演示文稿中,Cascalog 的作者断言,给定一组姓名和年龄的数据,例如:[name age],返回所有大于平均年龄的结果的查询是 300 行 PIG。

这是一个有效的断言吗?真的有多少行PIG?

还是他描述的问题比我描述的更大?

(免责声明——我是 Nathan 的作品、Clojure 和 Cascalog 的忠实粉丝——我只是想弄清楚一些事实)。

0 投票
1 回答
1225 浏览

hadoop - 如何将 EMR 生成的 S3 上的小文件与数千个 reducer 合并

我的 cascalog EMR 作业在 S3 存储桶上生成了数千个小文件。它生成的文件数量与我使用的减速器数量相同。转储所有这些小文件需要几分钟时间。我想知道是否有办法在 S3 上连接它们以便我可以快速转储它们?

谢谢

0 投票
1 回答
258 浏览

hadoop - Cascalog first-n - 无法加入谓词

我正在从cascalog 项目的克隆中的 lein repl 中完成以下示例。我跑过:

但是当我尝试这个时:

我明白了

这似乎是一个查询创建与执行的事情。是否可以创建执行此查询的查询?

0 投票
1 回答
426 浏览

hadoop - 使用 cascalog 将共现计数转化为共现概率

我有一个存储在 s3 上的共现计数表(其中每一行是 [key-a, key-b, count]),我想从中生成共现概率矩阵。

为此,我需要计算每个 key-a 的计数总和,然后将每一行除以其 key-a 的总和。

如果我是“手动”执行此操作,我会传递数据以生成从键到总计的哈希表(在 leveldb 或类似的东西中),然后对数据进行第二次传递以进行除法。这听起来不像是一种非常级联的方式。

有什么方法可以通过相当于自加入来获得一行的总数?

0 投票
1 回答
405 浏览

clojure - 无法解析 Cascalog 中谓词中的符号

我有这个查询:

查询逐行读取 CSV 文件并检查满足有效数据条件 ( data-line?) 的行 - 这部分有效。然后它应该用逗号分隔行,并将向量传递给filter-out-data函数,函数又返回从该向量中提取的两个项目。当我执行查询时,我收到以下错误:无法解析符号:?line在此上下文中。

我一直在尝试传递拆分结果的不同方法(我希望它灵活,因为拆分的大小会有所不同)。我刚从 Clojure 和 Cascalog 开始,如果你能指出我正确的方向,我将不胜感激。谢谢!

0 投票
1 回答
238 浏览

hadoop - Clojure + 狐猴

我正在尝试使用 lemur+clojure 运行一些多步骤作业。

我在将多个输入作为参数传递给 clojure+lemur 时遇到问题。

作为我工作的第一步,我尝试运行 emr Streaming Job

狐猴运行 ${CONF_DIR}/run-pipeline.clj --master-instance-type ${MASTER_INSTANCE_TYPE} --slave-instance-type ${SLAVE_INSTANCE_TYPE} --num-instances ${NUM_INSTANCES} --ami-version ${ AMI_VERSION} --hadoop-version ${HADOOP_VERSION}--bucket ${BUCKET} --jar-src-path ${CONF_DIR}/run-pipeline.clj --input_folder "${input_folder}" --output-folder " ${output_folder}" --reduce-tasks "${REDUCE_TASKS}" --map-tasks "${MAP_TASKS}"

使用单个输入文件,我的代码看起来像这样

这工作正常,但是当我尝试传递输入文件列表时出现错误

狐猴运行 ${CONF_DIR}/run-pipeline.clj --master-instance-type ${MASTER_INSTANCE_TYPE} --slave-instance-type ${SLAVE_INSTANCE_TYPE} --num-instances ${NUM_INSTANCES} --ami-version ${ AMI_VERSION} --hadoop-version ${HADOOP_VERSION}--bucket ${BUCKET} --jar-src-path ${CONF_DIR}/run-pipeline.clj --input_folder "${input_folder1}" --input_folder "${ input_folder2}" --input_folder "${input_folder3}" --input_folder "${input_folder}" --output-folder "${output_folder}" --reduce-tasks "${REDUCE_TASKS}" --map-tasks "$ {MAP_TASKS}"

这是我得到的错误

我添加的代码是从第 17 行到第 19 行。

谢谢

0 投票
1 回答
191 浏览

hadoop - 使用 Cascalog/Cascading 读取 XML

网上有一些信息表明 Mahout 的XMLInputFormat可用于在 hadoop 上有效地处理 XML,但我一直无法找到如何使其工作的示例。有人可以指出我正确的方向吗?

我正在使用 Cascalog/Clojure。

0 投票
1 回答
446 浏览

hadoop - Cascalog Hadoop 版本支持

我注意到 Cascalog 入门指南指定了 Hadoop 的一个版本

如果我的团队使用不同版本的 Hadoop,那我会不会走运?更广泛地说,Cascalog 可以与哪些 Hadoop 版本进行互操作?

0 投票
2 回答
274 浏览

hadoop - Cascalog 可以链接到外部 Hadoop 集群吗?

我在 Eclipse 上使用 Cascalog。看起来对hadoop的依赖是在项目的project.clj文件中提供的,如下所示

如果我必须包括对本地安装的 Hadoop 单节点集群或一些外部 hadoop 集群的依赖——我应该怎么做?如果它是本地的,我应该简单地将“hadoop 路径”替换为“org.apache.hadoop”吗?您的想法将不胜感激。

最好的问候, Sindhu

0 投票
1 回答
192 浏览

clojure - 为左外连接提供默认值

我想知道在 cascalog 中为可能为空的字段执行外连接时指定默认值的最佳方法是什么。

在此示例中,用户和活动将是先前定义的查询,我只是希望关联活动用户信息 (?fname ?lname !days-active) 和常规用户信息 (?id ?fname ?lname)

因此,当连接发生时,如果没有 !days-active 的相应信息,它将输出 0 而不是 nil 即

代替

更新示例

示例输出看起来大致像

通过我感兴趣的过滤,我可以将 !!engaged-users 和 !!user-clicks 的字段更改为 0 而不是 null。使用多个Or谓词会起作用吗?