问题标签 [cascalog]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
clojure - Cascalog Trap 对其他功能的影响有多大?
我想知道使用以下示例将级联陷阱归结到多远。
如果some-generic-parsing-to-tuple-fn
在人员查询的范围内调用(其中包含(:trap trap)
子查询是否也可以访问该陷阱,或者是否some-generic-parsing-to-tuple-fn
还应该包含陷阱信息,即
TL;DR 我需要在 Cascalog 查询中传递多少陷阱才能允许嵌套查询访问陷阱
clojure - Cascalog deffilterop vs 纯clojure
使用 deffilterop 和使用 purse clojure 函数之间是否存在差异、性能或其他方面?
http://nathanmarz.com/blog/introducing-cascalog-a-clojure-based-query-language-for-hado.html提到过滤可以使用像 (< ?age2 ?age1) 这样的 clojure 函数来完成,但是查看https ://github.com/nathanmarz/cascalog/wiki/Guide-to-custom-operations看起来您可以定义一个类似 (deffilterop is-2? [x] (= x 2)) 的函数。
所以我的问题是,这两种方法之间有什么区别,如果没有,哪种是首选语法?
注意:看起来所有的 defxxxop 函数都被 defxxxfn 弃用了。https://github.com/nathanmarz/cascalog/blob/develop/cascalog-core/src/clj/cascalog/logic/def.clj#L131
cascalog - 如何禁用级联查询的回声
这是一个howto问题。当我在 cascalog.playground 区域执行简单查询时,会有很多信息。如何仅将结果显示到 (stdout)。我需要更新/更改/添加哪些设置?
谢谢你!
hadoop - Cascalog:在 hadoop 上启动 uberjar 和 main
我从如下文件编译了一个 uberjar:
我在hadoop上运行那个uberjar,比如:
$ hadoop jar myStandalone.jar clojure.main
我得到了一个 REPL,但该文件中没有任何内容被执行。我仍然需要手动输入 (:use 'cascalog.api) 和 (defn bla)。为什么会这样,我该如何解决?
多谢!
clojure - 使用 Cascalog 元组保存文件名信息
我正在寻找一种方法来保留与源自该特定文件的元组/数据相关联的文件名。我四处搜索,发现它hfs-wholefile
在获取文件名方面非常有效,但它会返回大量二进制信息。是否有可能获取此二进制信息并将其转换回元组,然后我可以像从它们中获取它们一样进行处理hfs-textline
?
理想情况下,上面的示例是我想用来处理此信息的示例。在 Cascalog/Cascading 中,有没有办法将字节转换为可以在查询中使用的常规变量?
clojure - “ClassCastException java.lang.Character cannot be cast to clojure.lang.Named”是什么意思?
在一个基于 cascalog 的玩具项目中,我正在尝试使用 cascalog.more-taps,因为它包含一些用于读取和写入文件系统的工具。
加载我的命名空间时,我收到此错误消息
我看到它深入到 clojure 核心,所以在深入研究它之前,我想知道是否有人对此有所了解。
2个快速说明:
cascalog.more-taps 需要 clojure 1.3.0 或 1.4.0,而 cascalog 最多支持 clojure 1.5.1
Matchure 出现了同样的错误消息,它已经很老了,似乎不再维护了。
hadoop - JCascalog/Pail 粉碎阶段在本地工作,但不在 Hadoop 中
在“大数据”Lambda 架构书之后,我有一个输入目录,里面充满了类型化的 Thift 数据对象,其中包含一个 DataPailStructure 定义的 pail.meta 文件
我拍摄了这些数据的快照:
传入的文件和元数据文件是重复的,pail.meta文件也有
现在我想切碎这些数据,将其分成垂直分区。与本书一样,我创建了两个 PailTap 对象,一个用于 Snapshot 和 SplitDataStructure,一个用于新的Shredded文件夹。
/Shredded文件夹有一个 pail.meta 文件,其中包含structure: SplitDataPailStructure
按照说明,我执行 JCascalog 查询以强制减速器:
现在,在本地模式下,这工作正常。在 /Shredded 下创建了一个“临时”子文件夹,它以预期的“1/1”结构垂直分区。在本地模式下,然后将其移至 /Shredded 文件夹,我可以毫无问题地合并并合并到 master。
但是在 Hadoop 内部运行,此时它失败了,并出现错误:
不用说,如果我将 Shredded Sink 结构类型更改为 DataPailStructure,那么它可以正常工作,但这是一个相当没有意义的操作,因为一切都在 Incoming 文件夹中。现在没关系,因为我只使用一种数据类型,但这很快就会改变,我需要那个分区。
有任何想法吗?我最初不想在这里发布我所有的源代码,但我几乎可以肯定错过了一些东西。
clojure - Transposing / pivoting rows to columns in Cascalog?
Let's say I have a set of tuples to be processed by Cascalog, formatted like [Date, Name, Value]
, e.g.
Given that I have a list of columns like [Pizza, Hamburger, Cheeseburger]
, I want to transpose / pivot the data so it looks like this:
What's the best way to do this in Cascalog?
clojure - Clojure 无法编译折刀
作为一个 clojure noob,我正在尝试使用 cascalog 来解析一个大的 CSV 文件。这是我的最小 project.clj:
lein deps
成功,但是当我在(use 'cascalog.api)
里面运行时lein repl
,我收到以下错误:
CompilerException java.lang.RuntimeException: Unable to resolve symbol: combinations in this context, compiling:(jackknife/seq.clj:12)
从 project.clj 中删除 clojure-csv 可以防止错误,但我可以在(use 'clojure-csv.core)
里面运行lein repl
而不会出错。
互联网上的另一个人似乎遇到了这个问题,但没有发布解决方案。这里发生了什么,我应该如何解决它?如果有人可以提供帮助,我将永远感激不尽。
hadoop - clojure:使用多台计算机进行并行处理
我有 500 个目录,每个目录有 1000 个文件(每个大约 3-4k 行)。我想在每个文件上运行相同的 clojure 程序(已经编写)。我有 4 个八核服务器。在这些核心之间分配进程的好方法是什么?cascalog(hadoop + clojure)?
基本上,程序读取文件,使用第 3 方 Java jar 进行计算,并将结果插入数据库
请注意: 1. 必须能够使用 3rd 方库/jar 2. 没有任何类型的查询