问题标签 [scalding]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - 如何测量scala烫伤程序的运行时间?
我有一个简单的烫伤程序来转换我在本地模式下使用 com.twitter.scalding.Tool 执行的一些数据。
我想测量程序的运行时间。我在代码的开头和结尾编写了测量时间的标准技巧,但是,结果约为 100 毫秒,而实际时间接近 60 秒。做这个的最好方式是什么?谢谢!
scala - 烫伤:管道操作的输出模式
我正在通过烫伤、聚合某些字段以及通过 TSV 写入制表符分隔的文件来读取 HDFS 上的文件。如何写出包含输出文件架构的文件?例如,
我想编写一个包含“Key, var1sum”的输出文本文件,以后拿起我的 ooutput 文件的人知道这些列是什么。我假设烫伤不会将它嵌入到文件中的某个地方?
谢谢。
scala - 烫伤:无法读取具有嵌套结构的 avro 文件
我需要在 Scalding 中读取 Avro 文件,但不知道如何使用它。我使用过简单的 avro 文件,但这个文件有点复杂。架构如下所示:
当第二个“字段”是一个嵌套字段,其中包含多个字段并且每条记录包含一组可能不同的嵌套字段时,不确定如何读取此数据。
我最初尝试使用 UnpackAvroSource 读取它并写入 Tsv,但我最终得到的数据如下所示:
还尝试创建一个案例类:
然后尝试阅读它:
我收到一条错误消息:找不到 com.twitter.scalding.avro.AvroSchemaType[FileReader.this.FileType] 类型的证据参数的隐式值,其中 FileReader 是正在读取数据的类的名称。
最终,我需要将上述数据变成如下所示的内容:
因此,如果有更好的方法可以做到这一点,那也可以。
对烫伤或 avro 文件不是很有经验,因此感谢您提供任何帮助。让我知道我可能需要提供哪些其他信息。
谢谢。
java - 如何使用 Scalding 将 Kryo 反序列化为案例类?
我知道 Scalding 的默认序列化使用 Kryo。所以对于这个例子,假设我有一个学生对象的管道。
然后我使用 Kryo 将该管道写入 TextDelimited 文件。
现在我有了这些“输出”文件,如何轻松地将它们读回 Student 对象?我的总体想法类似于以下内容,但它不起作用。
如何将我的 Kryo 编写的文本文件反序列化为它们最初所在的对象?
scala - Scala 2.11 的烫伤
我这样写了我的 build.sbt:
我应该为 scala 2.11 使用什么版本的烫伤?谢谢hadoop - 是否有可用于 lzo 压缩二进制数据的 Scalding 源?
我正在使用Elephant Bird 的可拆分 LZO 压缩将序列化的 Thrift 记录写入文件。为了实现这一点,我正在使用他们的ThriftBlockWriter
课程。然后,我的 Scalding 作业使用FixedPathLzoThrift源来处理记录。这一切都很好。问题是我仅限于单个 Thrift 类的记录。
我想开始使用RawBlockWriter
而不是ThriftBlockWriter[MyThriftClass]
. 因此,我的输入将是 LZO 压缩的原始字节数组,而不是 LZO 压缩的 Thrift 记录。我的问题是:我应该用什么代替FixedPathLzoThrift[MyThriftClass]
?
“protocol-buffers”标签的解释:Elephant Bird 使用 Protocol BuffersSerializedBlock
类来包装原始输入,如此处所示。
scala - 基于级联的 Scalding(旧版本)计数器
在旧版本scalding
中仍然没有counters
在其 API 中引入。 Hadoop Counters In Scalding建议如何回退到 scalding 中的级联计数器
但是,当我尝试得到:
我错过了什么吗?我使用的烫伤版本:0.8.7
scala - 烫伤:需要根据参数读取不同的文件格式
我正在尝试在脚本上创建,该脚本将以 avro 格式从文件创建管道,或者根据命令行中作为参数传递的值进行定界。然后我想拿那个管道并对其进行一些操作。我到目前为止是这样的:
这会产生一个错误,上面写着:
似乎它在 else if 语句上抛出了一个错误,这真的没有意义,但是当它找到“单元”类型并期待 RichPipe 时,我无法弄清楚它试图读取什么。
或者,如果有更好的方法来解决这个问题,请自由提出建议。
cascading - 模式验证
H,
我正在寻找数据架构验证的任何示例。
是否可以使用级联或烫伤。
例如
名称:字符串,年龄:整数
我们说我们的数据应该符合上述模式
然后我们可以验证数据是否真的属于那种类型
谢谢
scala - 烫伤:从单独的文件中添加特征
我有几个烫伤作业,其中包含一堆常量和一些在所有作业中都是一致的函数。当我需要对其中一个进行更改时,我不想在 5 个不同的地方进行更改。我想创建一个可以存储这些东西的特征,但是我在将特征引用/导入到我的工作中时遇到了麻烦。
所以我有一个名为 constants.scala 的文件,其中包含:
在我的一个名为 myJob.scala 的工作中,我尝试定义一个这样的类:
我尝试在 HDFS 中运行 myJob,使用以下命令将 constants.scala 添加到类路径:
constants.scala 出现在类路径中,但特征中没有任何内容被识别。我该如何进行这项工作?我需要编译constants.scala并引用该类还是先将其编译成jar?有没有更好的方法来解决这个问题?
对 OOP 不是很有经验,所以希望我不是在问一个非常基本/明显的问题。
谢谢。