“cascalog”的相关标签问题_Stack Overflow中文网

0 投票

0 回答

117 浏览

clojure - Cascalog Trap 对其他功能的影响有多大？

我想知道使用以下示例将级联陷阱归结到多远。

如果some-generic-parsing-to-tuple-fn在人员查询的范围内调用（其中包含(:trap trap)子查询是否也可以访问该陷阱，或者是否some-generic-parsing-to-tuple-fn还应该包含陷阱信息，即

TL;DR 我需要在 Cascalog 查询中传递多少陷阱才能允许嵌套查询访问陷阱

clojure cascalog

2013-09-30T15:57:11.283

0 投票

1 回答

154 浏览

clojure - Cascalog deffilterop vs 纯clojure

使用 deffilterop 和使用 purse clojure 函数之间是否存在差异、性能或其他方面？

http://nathanmarz.com/blog/introducing-cascalog-a-clojure-based-query-language-for-hado.html提到过滤可以使用像 (< ?age2 ?age1) 这样的 clojure 函数来完成，但是查看https ://github.com/nathanmarz/cascalog/wiki/Guide-to-custom-operations看起来您可以定义一个类似 (deffilterop is-2? [x] (= x 2)) 的函数。

所以我的问题是，这两种方法之间有什么区别，如果没有，哪种是首选语法？

注意：看起来所有的 defxxxop 函数都被 defxxxfn 弃用了。https://github.com/nathanmarz/cascalog/blob/develop/cascalog-core/src/clj/cascalog/logic/def.clj#L131

clojure cascalog

2013-10-02T14:30:01.240

0 投票

1 回答

43 浏览

cascalog - 如何禁用级联查询的回声

这是一个howto问题。当我在 cascalog.playground 区域执行简单查询时，会有很多信息。如何仅将结果显示到 (stdout)。我需要更新/更改/添加哪些设置？

谢谢你！

cascalog

2013-10-18T20:24:19.650

0 投票

1 回答

374 浏览

hadoop - Cascalog：在 hadoop 上启动 uberjar 和 main

我从如下文件编译了一个 uberjar：

我在hadoop上运行那个uberjar，比如：

$ hadoop jar myStandalone.jar clojure.main

我得到了一个 REPL，但该文件中没有任何内容被执行。我仍然需要手动输入 (:use 'cascalog.api) 和 (defn bla)。为什么会这样，我该如何解决？

多谢！

hadoop clojure uberjar cascalog

2013-10-29T13:11:33.990

0 投票

0 回答

88 浏览

clojure - 使用 Cascalog 元组保存文件名信息

我正在寻找一种方法来保留与源自该特定文件的元组/数据相关联的文件名。我四处搜索，发现它hfs-wholefile在获取文件名方面非常有效，但它会返回大量二进制信息。是否有可能获取此二进制信息并将其转换回元组，然后我可以像从它们中获取它们一样进行处理hfs-textline？

理想情况下，上面的示例是我想用来处理此信息的示例。在 Cascalog/Cascading 中，有没有办法将字节转换为可以在查询中使用的常规变量？

clojure cascading cascalog

2014-01-23T16:30:27.733

0 投票

0 回答

1311 浏览

clojure - “ClassCastException java.lang.Character cannot be cast to clojure.lang.Named”是什么意思？

在一个基于 cascalog 的玩具项目中，我正在尝试使用 cascalog.more-taps，因为它包含一些用于读取和写入文件系统的工具。

加载我的命名空间时，我收到此错误消息

我看到它深入到 clojure 核心，所以在深入研究它之前，我想知道是否有人对此有所了解。

2个快速说明：

cascalog.more-taps 需要 clojure 1.3.0 或 1.4.0，而 cascalog 最多支持 clojure 1.5.1

Matchure 出现了同样的错误消息，它已经很老了，似乎不再维护了。

clojure cascalog

2014-02-15T17:15:04.893

0 投票

0 回答

406 浏览

hadoop - JCascalog/Pail 粉碎阶段在本地工作，但不在 Hadoop 中

在“大数据”Lambda 架构书之后，我有一个输入目录，里面充满了类型化的 Thift 数据对象，其中包含一个 DataPailStructure 定义的 pail.meta 文件

我拍摄了这些数据的快照：

传入的文件和元数据文件是重复的，pail.meta文件也有

现在我想切碎这些数据，将其分成垂直分区。与本书一样，我创建了两个 PailTap 对象，一个用于 Snapshot 和 SplitDataStructure，一个用于新的Shredded文件夹。

/Shredded文件夹有一个 pail.meta 文件，其中包含structure: SplitDataPailStructure

按照说明，我执行 JCascalog 查询以强制减速器：

现在，在本地模式下，这工作正常。在 /Shredded 下创建了一个“临时”子文件夹，它以预期的“1/1”结构垂直分区。在本地模式下，然后将其移至 /Shredded 文件夹，我可以毫无问题地合并并合并到 master。

但是在 Hadoop 内部运行，此时它失败了，并出现错误：

不用说，如果我将 Shredded Sink 结构类型更改为 DataPailStructure，那么它可以正常工作，但这是一个相当没有意义的操作，因为一切都在 Incoming 文件夹中。现在没关系，因为我只使用一种数据类型，但这很快就会改变，我需要那个分区。

有任何想法吗？我最初不想在这里发布我所有的源代码，但我几乎可以肯定错过了一些东西。

hadoop cascalog lambda-architecture

2014-03-10T16:57:13.390

0 投票

1 回答

183 浏览

clojure - Transposing / pivoting rows to columns in Cascalog?

Let's say I have a set of tuples to be processed by Cascalog, formatted like [Date, Name, Value], e.g.

Given that I have a list of columns like [Pizza, Hamburger, Cheeseburger], I want to transpose / pivot the data so it looks like this:

What's the best way to do this in Cascalog?

clojure cascading cascalog

2014-04-28T13:51:15.717

0 投票

0 回答

100 浏览

clojure - Clojure 无法编译折刀

作为一个 clojure noob，我正在尝试使用 cascalog 来解析一个大的 CSV 文件。这是我的最小 project.clj：

lein deps成功，但是当我在(use 'cascalog.api)里面运行时lein repl，我收到以下错误：

CompilerException java.lang.RuntimeException: Unable to resolve symbol: combinations in this context, compiling:(jackknife/seq.clj:12)

从 project.clj 中删除 clojure-csv 可以防止错误，但我可以在(use 'clojure-csv.core)里面运行lein repl而不会出错。

互联网上的另一个人似乎遇到了这个问题，但没有发布解决方案。这里发生了什么，我应该如何解决它？如果有人可以提供帮助，我将永远感激不尽。

clojure leiningen cascalog

2014-06-18T18:25:36.837

0 投票

2 回答

362 浏览

hadoop - clojure：使用多台计算机进行并行处理

我有 500 个目录，每个目录有 1000 个文件（每个大约 3-4k 行）。我想在每个文件上运行相同的 clojure 程序（已经编写）。我有 4 个八核服务器。在这些核心之间分配进程的好方法是什么？cascalog（hadoop + clojure）？

基本上，程序读取文件，使用第 3 方 Java jar 进行计算，并将结果插入数据库

请注意： 1. 必须能够使用 3rd 方库/jar 2. 没有任何类型的查询

hadoop clojure parallel-processing cascalog

2015-01-02T12:00:45.590

问题标签 [cascalog]

Reference