问题标签 [cascalog]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Jcascalog 在 HDFS 上查询 thrift 数据
我阅读了 Nathan Marz 关于 lambda 架构的书。我实际上是在证明这个解决方案的概念。
我很难构建我的 Jcascalog 查询。
这是我们感兴趣的节俭模式中的一部分:
我用 Pail 将一些数据存储到文件夹中:/home/tickets
现在我想对这个数据提出一个请求:我想得到按文章名称分组的数量总和。所以首先我需要得到名称,然后是数量。对于每个我可以获得文章的 ID。
例如,对于名称 request(id_article, name),我将得到以下结果:(1, pasta) - (2, pasta2) - (3, pasta)
对于数量请求(id_article,数量):(1, 2) - (2, 1) - (3, 1)
问题是我不怎么合并结果?如何在 HDFS 中加入 Cascalog 和数据?
hadoop - Cascalog进程多行json?
我有一个要使用 cascalog 处理的 Json 文件目录。我现在拥有的解决方案要求我使用 bash 脚本从我的 json 文件中删除所有换行符。我正在寻找更好的解决方案,因为我使用 rsync 同步这些文件。
我的问题是我可以在 Cascalog 中读取文件的内容并将文件的内容作为一个元组返回。目前,函数“lfs-textline”为文件中的每一行返回一个元组序列,因此我必须删除换行符。最好我想为每个文件返回一个元组序列。
hadoop - IllegalArgumentException 必须指定 bucketName 参数。com.amazonaws.services.s3.AmazonS3Client.rejectNull
jar
在 AWS-EMR 集群上运行 Clojure ,使用(hfs-textline)
并获取:
IllegalArgumentException 必须指定 bucketName 参数。com.amazonaws.services.s3.AmazonS3Client.rejectNull`。
hadoop - 是否有可能(如果是,如何)杀死正在运行的级联或级联作业?
标题应该是不言自明的。
我对 Cascalog 特别感兴趣,但如果很清楚如何适用于 Cascalog,我可能会接受更广泛地调整到 Cascading 的答案。
有时,我会创建一个 Cascalog 查询,它会做错事,并尝试在我的小型开发笔记本电脑上遍历一些海量集合。发生这种情况时,我目前无法杀死工作并挽救我宝贵的电池寿命,而无需杀死总是咬人的父 Clojure 进程(重新启动 JVM/Clojure 并再次恢复应用程序状态……)。
mysql - 从 cascalog 写入 MySQL 不起作用。如何调试这个?
我正在尝试将级联查询的结果写入 MySQL 数据库。为此,我使用cascading-jdbc并遵循我在此处找到的示例。我正在使用cascading-jdbc-core
和cascading-jdbc-mysql
版本3.0.0
。
我正在从我的 REPL 中精确执行这段代码:
当我运行代码时,我在 REPL 中看到了这些日志:
一切看起来都很好。但是,没有写入数据。我对此进行了检查tcpdump
,甚至没有与我的本地 MySQL 数据库建立连接。此外,当我将 JDBC-connection-string 更改为明显错误的值(不存在的用户名、不存在的数据库名称,甚至不存在数据库服务器的 IP)时,我会得到相同的日志抱怨什么。
此外,更改jdbc-tap
tostdout
会产生预期值。
我根本不知道如何调试它。是否有可能产生错误输出?现在,我不知道出了什么问题。