问题标签 [cascalog]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

26 问题

0 投票

4 回答

2290 浏览

hadoop - Clojure Hadoop - 5 行 Cascalog 相当于 300 行 PIG？

在幻灯片 36 和 37 的演示文稿中，Cascalog 的作者断言，给定一组姓名和年龄的数据，例如：[name age]，返回所有大于平均年龄的结果的查询是 300 行 PIG。

这是一个有效的断言吗？真的有多少行PIG？

还是他描述的问题比我描述的更大？

（免责声明——我是 Nathan 的作品、Clojure 和 Cascalog 的忠实粉丝——我只是想弄清楚一些事实）。

2013-01-26T04:20:37.803

0 投票

1 回答

1225 浏览

hadoop - 如何将 EMR 生成的 S3 上的小文件与数千个 reducer 合并

我的 cascalog EMR 作业在 S3 存储桶上生成了数千个小文件。它生成的文件数量与我使用的减速器数量相同。转储所有这些小文件需要几分钟时间。我想知道是否有办法在 S3 上连接它们以便我可以快速转储它们？

谢谢

炕

hadoop amazon-web-services amazon-s3 emr cascalog

2013-04-06T15:10:07.880

0 投票

1 回答

258 浏览

hadoop - Cascalog first-n - 无法加入谓词

我正在从cascalog 项目的克隆中的 lein repl 中完成以下示例。我跑过：

但是当我尝试这个时：

我明白了

这似乎是一个查询创建与执行的事情。是否可以创建执行此查询的查询？

hadoop clojure cascading cascalog

2013-04-19T02:43:28.110

0 投票

1 回答

426 浏览

hadoop - 使用 cascalog 将共现计数转化为共现概率

我有一个存储在 s3 上的共现计数表（其中每一行是 [key-a, key-b, count]），我想从中生成共现概率矩阵。

为此，我需要计算每个 key-a 的计数总和，然后将每一行除以其 key-a 的总和。

如果我是“手动”执行此操作，我会传递数据以生成从键到总计的哈希表（在 leveldb 或类似的东西中），然后对数据进行第二次传递以进行除法。这听起来不像是一种非常级联的方式。

有什么方法可以通过相当于自加入来获得一行的总数？

hadoop clojure cascalog

2013-05-18T20:57:36.463

0 投票

1 回答

405 浏览

clojure - 无法解析 Cascalog 中谓词中的符号

我有这个查询：

查询逐行读取 CSV 文件并检查满足有效数据条件 ( data-line?) 的行 - 这部分有效。然后它应该用逗号分隔行，并将向量传递给filter-out-data函数，函数又返回从该向量中提取的两个项目。当我执行查询时，我收到以下错误：无法解析符号：?line在此上下文中。

我一直在尝试传递拆分结果的不同方法（我希望它灵活，因为拆分的大小会有所不同）。我刚从 Clojure 和 Cascalog 开始，如果你能指出我正确的方向，我将不胜感激。谢谢！

clojure cascalog

2013-07-07T13:57:18.917

0 投票

1 回答

238 浏览

hadoop - Clojure + 狐猴

我正在尝试使用 lemur+clojure 运行一些多步骤作业。

我在将多个输入作为参数传递给 clojure+lemur 时遇到问题。

作为我工作的第一步，我尝试运行 emr Streaming Job

狐猴运行 ${CONF_DIR}/run-pipeline.clj --master-instance-type ${MASTER_INSTANCE_TYPE} --slave-instance-type ${SLAVE_INSTANCE_TYPE} --num-instances ${NUM_INSTANCES} --ami-version ${ AMI_VERSION} --hadoop-version ${HADOOP_VERSION}--bucket ${BUCKET} --jar-src-path ${CONF_DIR}/run-pipeline.clj --input_folder "${input_folder}" --output-folder " ${output_folder}" --reduce-tasks "${REDUCE_TASKS}" --map-tasks "${MAP_TASKS}"

使用单个输入文件，我的代码看起来像这样

这工作正常，但是当我尝试传递输入文件列表时出现错误

狐猴运行 ${CONF_DIR}/run-pipeline.clj --master-instance-type ${MASTER_INSTANCE_TYPE} --slave-instance-type ${SLAVE_INSTANCE_TYPE} --num-instances ${NUM_INSTANCES} --ami-version ${ AMI_VERSION} --hadoop-version ${HADOOP_VERSION}--bucket ${BUCKET} --jar-src-path ${CONF_DIR}/run-pipeline.clj --input_folder "${input_folder1}" --input_folder "${ input_folder2}" --input_folder "${input_folder3}" --input_folder "${input_folder}" --output-folder "${output_folder}" --reduce-tasks "${REDUCE_TASKS}" --map-tasks "$ {MAP_TASKS}"

这是我得到的错误

我添加的代码是从第 17 行到第 19 行。

谢谢

hadoop clojure amazon-emr emr cascalog

2013-07-09T23:02:35.670

0 投票

1 回答

191 浏览