问题标签 [scalding]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
477 浏览

scala - 如何测量scala烫伤程序的运行时间?

我有一个简单的烫伤程序来转换我在本地模式下使用 com.twitter.scalding.Tool 执行的一些数据。

我想测量程序的运行时间。我在代码的开头和结尾编写了测量时间的标准技巧,但是,结果约为 100 毫秒,而实际时间接近 60 秒。做这个的最好方式是什么?谢谢!

0 投票
1 回答
113 浏览

scala - 烫伤:管道操作的输出模式

我正在通过烫伤、聚合某些字段以及通过 TSV 写入制表符分隔的文件来读取 HDFS 上的文件。如何写出包含输出文件架构的文件?例如,

我想编写一个包含“Key, var1sum”的输出文本文件,以后拿起我的 ooutput 文件的人知道这些列是什么。我假设烫伤不会将它嵌入到文件中的某个地方?

谢谢。

0 投票
0 回答
440 浏览

scala - 烫伤:无法读取具有嵌套结构的 avro 文件

我需要在 Scalding 中读取 Avro 文件,但不知道如何使用它。我使用过简单的 avro 文件,但这个文件有点复杂。架构如下所示:

当第二个“字段”是一个嵌套字段,其中包含多个字段并且每条记录包含一组可能不同的嵌套字段时,不确定如何读取此数据。

我最初尝试使用 UnpackAvroSource 读取它并写入 Tsv,但我最终得到的数据如下所示:

还尝试创建一个案例类:

然后尝试阅读它:

我收到一条错误消息:找不到 com.twitter.scalding.avro.AvroSchemaType[FileReader.this.FileType] 类型的证据参数的隐式值,其中 FileReader 是正在读取数据的类的名称。

最终,我需要将上述数据变成如下所示的内容:

因此,如果有更好的方法可以做到这一点,那也可以。

对烫伤或 avro 文件不是很有经验,因此感谢您提供任何帮助。让我知道我可能需要提供哪些其他信息。

谢谢。

0 投票
0 回答
629 浏览

java - 如何使用 Scalding 将 Kryo 反序列化为案例类?

我知道 Scalding 的默认序列化使用 Kryo。所以对于这个例子,假设我有一个学生对象的管道。

然后我使用 Kryo 将该管道写入 TextDelimited 文件。

现在我有了这些“输出”文件,如何轻松地将它们读回 Student 对象?我的总体想法类似于以下内容,但它不起作用。

如何将我的 Kryo 编写的文本文件反序列化为它们最初所在的对象?

0 投票
2 回答
520 浏览

scala - Scala 2.11 的烫伤

我这样写了我的 build.sbt:

我应该为 scala 2.11 使用什么版本的烫伤?谢谢

0 投票
1 回答
381 浏览

hadoop - 是否有可用于 lzo 压缩二进制数据的 Scalding 源?

我正在使用Elephant Bird 的可拆分 LZO 压缩将序列化的 Thrift 记录写入文件。为了实现这一点,我正在使用他们的ThriftBlockWriter课程。然后,我的 Scalding 作业使用FixedPathLzoThrift源来处理记录。这一切都很好。问题是我仅限于单个 Thrift 类的记录。

我想开始使用RawBlockWriter而不是ThriftBlockWriter[MyThriftClass]. 因此,我的输入将是 LZO 压缩的原始字节数组,而不是 LZO 压缩的 Thrift 记录。我的问题是:我应该用什么代替FixedPathLzoThrift[MyThriftClass]

“protocol-buffers”标签的解释:Elephant Bird 使用 Protocol BuffersSerializedBlock类来包装原始输入,如此处所示

0 投票
1 回答
200 浏览

scala - 基于级联的 Scalding(旧版本)计数器

在旧版本scalding中仍然没有counters在其 API 中引入。 Hadoop Counters In Scalding建议如何回退到 scalding 中的级联计数器

但是,当我尝试得到:

我错过了什么吗?我使用的烫伤版本:0.8.7

0 投票
1 回答
293 浏览

scala - 烫伤:需要根据参数读取不同的文件格式

我正在尝试在脚本上创建,该脚本将以 avro 格式从文件创建管道,或者根据命令行中作为参数传递的值进行定界。然后我想拿那个管道并对其进行一些操作。我到目前为止是这样的:

这会产生一个错误,上面写着:

似乎它在 else if 语句上抛出了一个错误,这真的没有意义,但是当它找到“单元”类型并期待 RichPipe 时,我无法弄清楚它试图读取什么。

或者,如果有更好的方法来解决这个问题,请自由提出建议。

0 投票
2 回答
171 浏览

cascading - 模式验证

H,

我正在寻找数据架构验证的任何示例。

是否可以使用级联或烫伤。

例如

名称:字符串,年龄:整数

我们说我们的数据应该符合上述模式

然后我们可以验证数据是否真的属于那种类型

谢谢

0 投票
1 回答
80 浏览

scala - 烫伤:从单独的文件中添加特征

我有几个烫伤作业,其中包含一堆常量和一些在所有作业中都是一致的函数。当我需要对其中一个进行更改时,我不想在 5 个不同的地方进行更改。我想创建一个可以存储这些东西的特征,但是我在将特征引用/导入到我的工作中时遇到了麻烦。

所以我有一个名为 constants.scala 的文件,其中包含:

在我的一个名为 myJob.scala 的工作中,我尝试定义一个这样的类:

我尝试在 HDFS 中运行 myJob,使用以下命令将 constants.scala 添加到类路径:

constants.scala 出现在类路径中,但特征中没有任何内容被识别。我该如何进行这项工作?我需要编译constants.scala并引用该类还是先将其编译成jar?有没有更好的方法来解决这个问题?

对 OOP 不是很有经验,所以希望我不是在问一个非常基本/明显的问题。

谢谢。