问题标签 [cascalog]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Clojure Hadoop - 5 行 Cascalog 相当于 300 行 PIG?
在幻灯片 36 和 37 的演示文稿中,Cascalog 的作者断言,给定一组姓名和年龄的数据,例如:[name age],返回所有大于平均年龄的结果的查询是 300 行 PIG。
这是一个有效的断言吗?真的有多少行PIG?
还是他描述的问题比我描述的更大?
(免责声明——我是 Nathan 的作品、Clojure 和 Cascalog 的忠实粉丝——我只是想弄清楚一些事实)。
hadoop - 如何将 EMR 生成的 S3 上的小文件与数千个 reducer 合并
我的 cascalog EMR 作业在 S3 存储桶上生成了数千个小文件。它生成的文件数量与我使用的减速器数量相同。转储所有这些小文件需要几分钟时间。我想知道是否有办法在 S3 上连接它们以便我可以快速转储它们?
谢谢
炕
hadoop - 使用 cascalog 将共现计数转化为共现概率
我有一个存储在 s3 上的共现计数表(其中每一行是 [key-a, key-b, count]),我想从中生成共现概率矩阵。
为此,我需要计算每个 key-a 的计数总和,然后将每一行除以其 key-a 的总和。
如果我是“手动”执行此操作,我会传递数据以生成从键到总计的哈希表(在 leveldb 或类似的东西中),然后对数据进行第二次传递以进行除法。这听起来不像是一种非常级联的方式。
有什么方法可以通过相当于自加入来获得一行的总数?
clojure - 无法解析 Cascalog 中谓词中的符号
我有这个查询:
查询逐行读取 CSV 文件并检查满足有效数据条件 ( data-line?
) 的行 - 这部分有效。然后它应该用逗号分隔行,并将向量传递给filter-out-data
函数,函数又返回从该向量中提取的两个项目。当我执行查询时,我收到以下错误:无法解析符号:?line
在此上下文中。
我一直在尝试传递拆分结果的不同方法(我希望它灵活,因为拆分的大小会有所不同)。我刚从 Clojure 和 Cascalog 开始,如果你能指出我正确的方向,我将不胜感激。谢谢!
hadoop - Clojure + 狐猴
我正在尝试使用 lemur+clojure 运行一些多步骤作业。
我在将多个输入作为参数传递给 clojure+lemur 时遇到问题。
作为我工作的第一步,我尝试运行 emr Streaming Job
狐猴运行 ${CONF_DIR}/run-pipeline.clj --master-instance-type ${MASTER_INSTANCE_TYPE} --slave-instance-type ${SLAVE_INSTANCE_TYPE} --num-instances ${NUM_INSTANCES} --ami-version ${ AMI_VERSION} --hadoop-version ${HADOOP_VERSION}--bucket ${BUCKET} --jar-src-path ${CONF_DIR}/run-pipeline.clj --input_folder "${input_folder}" --output-folder " ${output_folder}" --reduce-tasks "${REDUCE_TASKS}" --map-tasks "${MAP_TASKS}"
使用单个输入文件,我的代码看起来像这样
这工作正常,但是当我尝试传递输入文件列表时出现错误
狐猴运行 ${CONF_DIR}/run-pipeline.clj --master-instance-type ${MASTER_INSTANCE_TYPE} --slave-instance-type ${SLAVE_INSTANCE_TYPE} --num-instances ${NUM_INSTANCES} --ami-version ${ AMI_VERSION} --hadoop-version ${HADOOP_VERSION}--bucket ${BUCKET} --jar-src-path ${CONF_DIR}/run-pipeline.clj --input_folder "${input_folder1}" --input_folder "${ input_folder2}" --input_folder "${input_folder3}" --input_folder "${input_folder}" --output-folder "${output_folder}" --reduce-tasks "${REDUCE_TASKS}" --map-tasks "$ {MAP_TASKS}"
这是我得到的错误
我添加的代码是从第 17 行到第 19 行。
谢谢
hadoop - 使用 Cascalog/Cascading 读取 XML
网上有一些信息表明 Mahout 的XMLInputFormat可用于在 hadoop 上有效地处理 XML,但我一直无法找到如何使其工作的示例。有人可以指出我正确的方向吗?
我正在使用 Cascalog/Clojure。
hadoop - Cascalog Hadoop 版本支持
我注意到 Cascalog 入门指南指定了 Hadoop 的一个版本
如果我的团队使用不同版本的 Hadoop,那我会不会走运?更广泛地说,Cascalog 可以与哪些 Hadoop 版本进行互操作?
hadoop - Cascalog 可以链接到外部 Hadoop 集群吗?
我在 Eclipse 上使用 Cascalog。看起来对hadoop的依赖是在项目的project.clj文件中提供的,如下所示
如果我必须包括对本地安装的 Hadoop 单节点集群或一些外部 hadoop 集群的依赖——我应该怎么做?如果它是本地的,我应该简单地将“hadoop 路径”替换为“org.apache.hadoop”吗?您的想法将不胜感激。
最好的问候, Sindhu
clojure - 为左外连接提供默认值
我想知道在 cascalog 中为可能为空的字段执行外连接时指定默认值的最佳方法是什么。
在此示例中,用户和活动将是先前定义的查询,我只是希望关联活动用户信息 (?fname ?lname !days-active) 和常规用户信息 (?id ?fname ?lname)
因此,当连接发生时,如果没有 !days-active 的相应信息,它将输出 0 而不是 nil 即
代替
更新示例
示例输出看起来大致像
通过我感兴趣的过滤,我可以将 !!engaged-users 和 !!user-clicks 的字段更改为 0 而不是 null。使用多个Or谓词会起作用吗?