问题标签 [scalding]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 使用 Hadoop 读取 s3 时出现 java.lang.NullPointerException(Scalding)
尝试使用 Scalding / Hadoop 读取 s3 时出现奇怪的 NPE。路径是 100% 正确的。
问这个问题是因为它对谷歌来说非常困难,每次我收到这个错误时,我都会忘记我是如何解决它的。所以在 SO 上发帖,这样我就可以自己谷歌了。
scala - 读取 Spark 编写的 SequenceFile
我有一堆想要使用 Scalding 读取的序列文件,但遇到了一些麻烦。这是我的代码:
我在本地和 hdfs 上运行不同的堆栈跟踪???
我的本地堆栈跟踪是:
当我在 hdfs 上运行它时:
我听说读取使用烫伤在级联之外创建的序列文件可能存在问题。我不太明白为什么,我不知道如何解决这个问题。
我将不胜感激对此的解释和解决方案
scala - 烫伤教程:java.lang.ClassNotFoundException
请帮助运行烫伤教程。我在单个节点上运行 Hadoop 2.2 并尝试运行 Scalding 教程: https ://github.com/Cascading/scalding-tutorial/ 使用这些命令成功构建“fat jar”后:
我尝试按照以下命令的建议运行教程示例:
--local 和 --hdfs 都因 java.lang.ClassNotFoundException 而失败:
更新
将命令参数更改为 'Tutorial1', 'Tutorial0' 也无济于事:
scala - Scalding tutorial: com.twitter.scalding.InvalidSourceException: Data is missing from one or more paths
With Hadoop 2.2 installed on single node I try to run Scalding tutorial, part 1, with command:
https://github.com/Cascading/scalding-tutorial/
Before running tutorial I Have copied required file hello.txt
to HDFS:
It looks like tutorial can not find input file:
Any ideas how to make it work?
scala - 烫伤教程:HDFS rsync 错误
请帮助了解在 Hadoop 上运行不成功的 Scalding 的输出。
我从 git 获得了最新的 Scalding 发行版:git clone https://github.com/twitter/scalding.git
sbt assembly
从目录之后,scalding
我尝试使用命令运行教程:
结果我得到了以下错误:
* 更新 *
在更改主机后,scald.rb
我得到以下身份验证问题:
RSA 密钥指纹为 fa:41:31:ab:b0:46:08:8f:2b:75:0a:18:24:f9:d5:ec。您确定要继续连接(是/否)?是 警告:将“node7.test.net”(RSA)永久添加到已知主机列表中。test@node7.test.net 的密码:请输入“是”或“否”:权限被拒绝,请重试。test@node7.test.net 的密码:
我输入了正确的路径词,但身份验证错误仍然存在。我应该如何配置rsync
?
scala - 使用 HDFS 的 Scalding 教程:List(tutorial/data/hello.txt) 中的一个或多个路径中缺少数据
当我尝试使用命令运行 Scalding 教程(https://github.com/Cascading/scalding-tutorial/)时配置 ssh 和 rsync 后:
$ scripts/scald.rb --hdfs tutorial/Tutorial0.scala
我收到以下错误:
尽管文件 tutorial/data/hello.txt 确实存在,但仍会发生此错误。
如何解决这个问题?
标准输出:
scala - 烫伤:如何更改默认的元组比较功能?
进行 Scalding MapReduce 操作我需要在元组字段上使用我自己的比较函数来比较元组。
问题:
- 如何定义我自己的元组比较函数?
- 一般来说,使用自定义 Scala 代码扩展 Scalding 的规则是什么?限制?
谢谢!
scala - Scalding DSL 如何转换成常规的 Scala 代码?
请帮助了解 Scalding DSL 如何转换为常规 Scala 代码。
https://github.com/twitter/scalding/wiki/Fields-based-API-Reference#sortBy
例如:
问题:
- 我需要遵循哪些约定才能将自己的函数添加到Scalding
map,
reduce、groupBy,
sort 和 `scanLeft? - Scalding 如何将 `'inpFld -> 'outFld 等字段上的表达式转换为 Scala 代码?
- Scalding 翻译器创建了哪些数据结构/函数?在 Scalding 源代码中哪里可以找到它们?
谢谢!
eclipse - 如何在 sbt 项目中声明对 Scalding 的依赖?
我想弄清楚如何build.sbt
为我自己的基于Scalding的项目创建一个文件。
烫伤源结构没有build.sbt
文件。相反,它具有project/Build.scala
构建定义。
将我自己的 sbt 项目与 Scalding 集成的正确方法是什么,所以我也可以稍后在 Eclipse 中使用sbt-eclipse
插件导入它?
更新:
对于以下代码:
有了这个build.sbt
:
我收到错误:
更新 2
完成后git clone git@github.com:twitter/scalding.git their repository
,sbt publishLocal
我仍然有相同的编译错误。
但是添加您建议的两行build.sbt
允许我编译我的代码。所以以下build.sbt
真的有效,谢谢!
'sbt eclipse' 创建 Eclipse 项目,它不能在 Eclipse 下编译并报告以下错误:
scala - 烫伤:成对比较字符串?
使用烫伤我需要:
- 按前 3 个字符对字符串字段进行分组
edit-distance
使用度量 ( http://en.wikipedia.org/wiki/Edit_distance )比较每个组中所有对中的字符串- 将结果写入记录所在的 CSV 文件中
string; string; distance
要对我使用的字符串进行分组map
,groupBy
如下例所示:
结果我得到:
aaa
现在,在此示例中,我需要计算此列表中带有键的字符串的编辑距离:
next 用于此列表中所有带有 'bbb' 键的字符串:
等等
要计算每个组中所有字符串之间的编辑距离,我需要toList
用自己的函数替换,我该怎么做?还有如何将我的函数结果写入 CSV 文件?
谢谢!
更新
如何List
从烫伤中获得Pipe
?
toList
只是返回另一个Pipe
,所以我不能全部使用它: