问题标签 [scalding]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1240 浏览

hadoop - 使用 Hadoop 读取 s3 时出现 java.lang.NullPointerException(Scalding)

尝试使用 Scalding / Hadoop 读取 s3 时出现奇怪的 NPE。路径是 100% 正确的。

问这个问题是因为它对谷歌来说非常困难,每次我收到这个错误时,我都会忘记我是如何解决它的。所以在 SO 上发帖,这样我就可以自己谷歌了。

0 投票
0 回答
1500 浏览

scala - 读取 Spark 编写的 SequenceFile

我有一堆想要使用 Scalding 读取的序列文件,但遇到了一些麻烦。这是我的代码:

我在本地和 hdfs 上运行不同的堆栈跟踪???

我的本地堆栈跟踪是:

当我在 hdfs 上运行它时:

我听说读取使用烫伤在级联之外创建的序列文件可能存在问题。我不太明白为什么,我不知道如何解决这个问题。

我将不胜感激对此的解释和解决方案

0 投票
1 回答
664 浏览

scala - 烫伤教程:java.lang.ClassNotFoundException

请帮助运行烫伤教程。我在单个节点上运行 Hadoop 2.2 并尝试运行 Scalding 教程: https ://github.com/Cascading/scalding-tutorial/ 使用这些命令成功构建“fat jar”后:

我尝试按照以下命令的建议运行教程示例:

--local 和 --hdfs 都因 java.lang.ClassNotFoundException 而失败:

更新

将命令参数更改为 'Tutorial1', 'Tutorial0' 也无济于事:

0 投票
1 回答
597 浏览

scala - Scalding tutorial: com.twitter.scalding.InvalidSourceException: Data is missing from one or more paths

With Hadoop 2.2 installed on single node I try to run Scalding tutorial, part 1, with command:

https://github.com/Cascading/scalding-tutorial/

Before running tutorial I Have copied required file hello.txt to HDFS:

It looks like tutorial can not find input file:

Any ideas how to make it work?

0 投票
1 回答
337 浏览

scala - 烫伤教程:HDFS rsync 错误

请帮助了解在 Hadoop 上运行不成功的 Scalding 的输出。

我从 git 获得了最新的 Scalding 发行版:git clone https://github.com/twitter/scalding.git

sbt assembly从目录之后,scalding我尝试使用命令运行教程:

结果我得到了以下错误:

* 更新 *

在更改主机后,scald.rb我得到以下身份验证问题:

RSA 密钥指纹为 fa:41:31:ab:b0:46:08:8f:2b:75:0a:18:24:f9:d5:ec。您确定要继续连接(是/否)?是 警告:将“node7.test.net”(RSA)永久添加到已知主机列表中。test@node7.test.net 的密码:请输入“是”或“否”:权限被拒绝,请重试。test@node7.test.net 的密码:

我输入了正确的路径词,但身份验证错误仍然存​​在。我应该如何配置rsync

0 投票
2 回答
586 浏览

scala - 使用 HDFS 的 Scalding 教程:List(tutorial/data/hello.txt) 中的一个或多个路径中缺少数据

当我尝试使用命令运行 Scalding 教程(https://github.com/Cascading/scalding-tutorial/)时配置 ssh 和 rsync 后:

$ scripts/scald.rb --hdfs tutorial/Tutorial0.scala

我收到以下错误:

尽管文件 tutorial/data/hello.txt 确实存在,但仍会发生此错误。

如何解决这个问题?

标准输出:

0 投票
1 回答
367 浏览

scala - 烫伤:如何更改默认的元组比较功能?

进行 Scalding MapReduce 操作我需要在元组字段上使用我自己的比较函数来比较元组。

问题:

  1. 如何定义我自己的元组比较函数?
  2. 一般来说,使用自定义 Scala 代码扩展 Scalding 的规则是什么?限制?

谢谢!

0 投票
1 回答
189 浏览

scala - Scalding DSL 如何转换成常规的 Scala 代码?

请帮助了解 Scalding DSL 如何转换为常规 Scala 代码。

https://github.com/twitter/scalding/wiki/Fields-based-API-Reference#sortBy

例如:

问题:

  1. 我需要遵循哪些约定才能将自己的函数添加到Scalding map,reduce、groupBy,sort 和 `scanLeft?
  2. Scalding 如何将 `'inpFld -> 'outFld 等字段上的表达式转换为 Scala 代码?
  3. Scalding 翻译器创建了哪些数据结构/函数?在 Scalding 源代码中哪里可以找到它们?

谢谢!

0 投票
1 回答
1586 浏览

eclipse - 如何在 sbt 项目中声明对 Scalding 的依赖?

我想弄清楚如何build.sbt为我自己的基于Scalding的项目创建一个文件。

烫伤源结构没有build.sbt文件。相反,它具有project/Build.scala构建定义。

将我自己的 sbt 项目与 Scalding 集成的正确方法是什么,所以我也可以稍后在 Eclipse 中使用sbt-eclipse插件导入它?

更新:

对于以下代码:

有了这个build.sbt

我收到错误:

更新 2

完成后git clone git@github.com:twitter/scalding.git their repositorysbt publishLocal我仍然有相同的编译错误。

但是添加您建议的两行build.sbt允许我编译我的代码。所以以下build.sbt真的有效,谢谢!

'sbt eclipse' 创建 Eclipse 项目,它不能在 Eclipse 下编译并报告以下错误:

0 投票
1 回答
575 浏览

scala - 烫伤:成对比较字符串?

使用烫伤我需要:

  1. 按前 3 个字符对字符串字段进行分组
  2. edit-distance使用度量 ( http://en.wikipedia.org/wiki/Edit_distance )比较每个组中所有对中的字符串
  3. 将结果写入记录所在的 CSV 文件中string; string; distance

要对我使用的字符串进行分组mapgroupBy如下例所示:

结果我得到:

aaa现在,在此示例中,我需要计算此列表中带有键的字符串的编辑距离:

next 用于此列表中所有带有 'bbb' 键的字符串:

等等

要计算每个组中所有字符串之间的编辑距离,我需要toList用自己的函数替换,我该怎么做?还有如何将我的函数结果写入 CSV 文件?

谢谢!

更新

如何List从烫伤中获得Pipe

toList只是返回另一个Pipe,所以我不能全部使用它: