问题标签 [sequencefile]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

159 问题

0 投票

3 回答

2612 浏览

hadoop - 以序列文件格式将文件文件 hive 导出到 hdfs

我正在尝试执行配置单元查询，并以SEQUENCE FILE格式将其输出导出到 HDFS 中。

这是我尝试导出数据的查询，

这是错误，

我在这里错过了什么吗？

软件版本：Cloudera hadoop CDH5.3.3，Apache版本0.13.1。

编辑： 在下面更新了我的临时解决方案。

hadoop hive cloudera cloudera-cdh sequencefile

2015-07-27T05:57:31.293

0 投票

1 回答

2054 浏览

scala - Spark：如何从 objectFile 中读取 CompactBuffer？

我正在从目标文件中读取以下结构：

如果我尝试这样阅读：

我收到以下错误：

但是，我在读取 objectFile 时也不能使用 CompactBuffer：

Eclipse 只会告诉我：

那么如何从 objectFile 中读取这样的 CompactBuffer 呢？谢谢！

scala apache-spark object-files sequencefile

2015-08-22T21:20:54.857

0 投票

0 回答

1497 浏览

protocol-buffers - 在 HDFS 中存储 protobuf 序列化数据的最佳实践

在 HDFS 中存储 protobuf 编码数据的首选方式是什么？目前我看到两种可能的解决方案：
a) 序列文件：存储序列化/编码的二进制数据，即序列文件对应值中的“byte[]”。

b) Parquet：Parquet 提供 protobuf/Parquet 转换器。因此，我的假设是，在使用这些转换器时，二进制数据首先必须反序列化为对象表示，然后必须将该对象传递给 protobuf/Parquet 转换器以将其存储在 Parquet 中。我认为与解决方案 a) 相比，这样做会导致更高的性能成本。由于我必须处理大量的小型 protobuf 编码数据块（由 Kafka 提供的流式车辆数据），因此性能和内存成本是重要的方面。

c) 还有其他选择吗？

总结一下：我正在寻找一种解决方案，将许多小型 protobuf 编码数据块（即车辆传感器数据）存储在 HDFS 中，从而尽可能地保留原始数据。但是，必须确保之后可以使用 Map/Reduce 或 Spark 处理数据。

最好的，托马斯

protocol-buffers apache-kafka parquet sequencefile

2015-08-26T15:27:57.173

0 投票

0 回答

434 浏览

key - Flume - 如何为 HDFS 序列文件创建自定义键？

我正在使用 Flume 的 HDFS SequenceFile 接收器将数据写入 HDFS。我正在寻找创建“自定义键”的可能性。默认情况下，Flume 使用 Timestamp 作为 SequenceFile 中的键。但是，在我的用例中，我想使用自定义字符串作为键（而不是时间戳）。

在 Flume 中实现/配置这种“自定义键”的最佳实践是什么？

最好的，托马斯

key hdfs flume sequencefile

2015-09-07T14:23:19.887

0 投票

1 回答

867 浏览

hadoop - Hadoop SequenceFile 与可拆分 LZO

我们正在选择文件格式来存储我们的原始日志，主要要求是压缩和可拆分的。到目前为止，块压缩（无论哪种编解码器）SequenceFiles和Hadoop-LZO看起来最合适。

Map-Reduce 处理哪一个效率更高，整体上更容易处理？

hadoop mapreduce sequencefile lzo

2015-10-10T22:28:55.813

0 投票

1 回答

79 浏览

java - Hadoop SequenceFile - 记录的自动增量键

我正在考虑使用 SequenceFile 作为“一个小数据库”来存储小文件。我需要那个并发客户端可以在这个 SequenceFile 中存储小文件并检索一个唯一的 id（记录的键）。

有可能吗？我是hadoop的新手，我读了很多书，但我不知道它是否可能。

如果是，请发布一个小例子（或一些参考），如果不是。我可以用 hadoop 做什么来满足我的需要？

java hadoop hdfs hadoop2 sequencefile

2015-10-27T10:45:48.853

0 投票

0 回答

338 浏览

java - 使用 SequenceFile 时出现空指针异常

我正在从事一个涉及 Hadoop 和 Mahout 库的项目。我必须使用 SequenceFile.Writer 将数据写入文件，但在尝试使用 SequenceFile 时出现空指针异常。为了更好地理解我的问题，我编写了一个重新创建问题以及错误消息的测试代码。我还添加了生成示例数据的代码。

首先，我根据 MyUtil 类中的某些分布生成示例数据。然后使用 Mahout 的树冠聚类库传递样本数据以进行树冠聚类（在测试类中）。然后尝试使用 SequenceFile.Writer 将树冠聚类算法产生的质心写入文件。这是我得到空指针异常的地方（创建序列文件编写器时）

在此先感谢您的帮助。

MyUtil.generateSamples 只是生成示例数据（我还添加了下面的代码）。上面的代码抛出的错误信息是

java hadoop mahout sequencefile

2015-11-11T02:48:14.097

0 投票

1 回答

751 浏览

hadoop - Spark RDD take() 和序列文件

在 SequenceFile 的支持下，它看起来RDD.take()只是重复读取的最后一个元素。
例如：

输出：

即使我知道这些行是独一无二的。

这个问题也存在于sc.binaryRecords().

我意识到这可能与 Hadoop Writable 缓存问题有关，但是是否有解决此问题的计划？有什么变通办法吗？

hadoop apache-spark sequencefile

2015-11-11T21:50:39.110

0 投票

1 回答

8027 浏览

python - 如何在 python 中从 HDFS 序列文件加载数据

我有一个 map reduce 程序正在运行以读取 HDFS 文件，如下所示：

有什么需要确认的，路径 /user/data/* 有文件夹，包括文件， /user/data/* 将迭代所有子文件夹下的所有文件，对吗？

hdfs 文本文件的每一行都包含一个 JSON 字符串，因此映射器读取文件如下：

但是 HDFS 的所有者将文件从文本更改为序列文件。我发现 map reduce 程序输出了很多零大小的文件，这可能意味着它没有成功地从 HDFS 读取文件。

我应该对代码进行哪些更改以便可以从序列文件中读取？我还有一个 HIVE 外部表来根据 mapreduce 的输出执行聚合和排序，并且 HIVE 之前是 STORED AS TEXTFILE ，我应该更改为 STORED AS SEQUENCEFILE 吗？

谢谢，

python hadoop mapreduce hive sequencefile

2015-11-13T01:43:53.890

0 投票

0 回答

468 浏览

opencv - 如何使用 opencv 和 MrJob 从 Hadoop 序列文件中读取图像？

我用tar-to-seq.jar从充满图像的 tar 文件创建了序列文件。现在我想用该序列文件的字节创建图像并分析它们。我使用的是 opencv 3.0.0 和 mrjob 0.5 版本。

我无法使用 cv2.imdecode() 方法读取图像并且我得到空值

运行此操作的结果是：

我越来越：

我在该序列文件中打包了 2731 个图像，所以我猜它打包得很好，但不知何故我无法将它们作为图像读取。有人有什么想法吗？

opencv hadoop mrjob sequencefile

2015-12-03T13:49:40.580

1 2 3 4 5 6 7 8 9 10