问题标签 [sequencefile]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
2612 浏览

hadoop - 以序列文件格式将文件文件 hive 导出到 hdfs

我正在尝试执行配置单元查询,并以SEQUENCE FILE格式将其输出导出到 HDFS 中。

这是我尝试导出数据的查询,

这是错误,

我在这里错过了什么吗?

软件版本:Cloudera hadoop CDH5.3.3,Apache版本0.13.1。

编辑: 在下面更新了我的临时解决方案。

0 投票
1 回答
2054 浏览

scala - Spark:如何从 objectFile 中读取 CompactBuffer?

我正在从目标文件中读取以下结构:

如果我尝试这样阅读:

我收到以下错误:


但是,我在读取 objectFile 时也不能使用 CompactBuffer:

Eclipse 只会告诉我:


那么如何从 objectFile 中读取这样的 CompactBuffer 呢?谢谢!

0 投票
0 回答
1497 浏览

protocol-buffers - 在 HDFS 中存储 protobuf 序列化数据的最佳实践


在 HDFS 中存储 protobuf 编码数据的首选方式是什么?目前我看到两种可能的解决方案:
a) 序列文件:存储序列化/编码的二进制数据,即序列文件对应值中的“byte[]”。

b) Parquet:Parquet 提供 protobuf/Parquet 转换器。因此,我的假设是,在使用这些转换器时,二进制数据首先必须反序列化为对象表示,然后必须将该对象传递给 protobuf/Parquet 转换器以将其存储在 Parquet 中。我认为与解决方案 a) 相比,这样做会导致更高的性能成本。由于我必须处理大量的小型 protobuf 编码数据块(由 Kafka 提供的流式车辆数据),因此性能和内存成本是重要的方面。

c) 还有其他选择吗?

总结一下:我正在寻找一种解决方案,将许多小型 protobuf 编码数据块(即车辆传感器数据)存储在 HDFS 中,从而尽可能地保留原始数据。但是,必须确保之后可以使用 Map/Reduce 或 Spark 处理数据。

最好的,托马斯

0 投票
0 回答
434 浏览

key - Flume - 如何为 HDFS 序列文件创建自定义键?

我正在使用 Flume 的 HDFS SequenceFile 接收器将数据写入 HDFS。我正在寻找创建“自定义键”的可能性。默认情况下,Flume 使用 Timestamp 作为 SequenceFile 中的键。但是,在我的用例中,我想使用自定义字符串作为键(而不是时间戳)。

在 Flume 中实现/配置这种“自定义键”的最佳实践是什么?

最好的,托马斯

0 投票
1 回答
867 浏览

hadoop - Hadoop SequenceFile 与可拆分 LZO

我们正在选择文件格式来存储我们的原始日志,主要要求是压缩和可拆分的。到目前为止,块压缩(无论哪种编解码器)SequenceFilesHadoop-LZO看起来最合适。

Map-Reduce 处理哪一个效率更高,整体上更容易处理?

0 投票
1 回答
79 浏览

java - Hadoop SequenceFile - 记录的自动增量键

我正在考虑使用 SequenceFile 作为“一个小数据库”来存储小文件。我需要那个并发客户端可以在这个 SequenceFile 中存储小文件并检索一个唯一的 id(记录的键)。

有可能吗?我是hadoop的新手,我读了很多书,但我不知道它是否可能。

如果是,请发布一个小例子(或一些参考),如果不是。我可以用 hadoop 做什么来满足我的需要?

0 投票
0 回答
338 浏览

java - 使用 SequenceFile 时出现空指针异常

我正在从事一个涉及 Hadoop 和 Mahout 库的项目。我必须使用 SequenceFile.Writer 将数据写入文件,但在尝试使用 SequenceFile 时出现空指针异常。为了更好地理解我的问题,我编写了一个重新创建问题以及错误消息的测试代码。我还添加了生成示例数据的代码。

首先,我根据 MyUtil 类中的某些分布生成示例数据。然后使用 Mahout 的树冠聚类库传递样本数据以进行树冠聚类(在测试类中)。然后尝试使用 SequenceFile.Writer 将树冠聚类算法产生的质心写入文件。这是我得到空指针异常的地方(创建序列文件编写器时)

在此先感谢您的帮助。

MyUtil.generateSamples 只是生成示例数据(我还添加了下面的代码)。上面的代码抛出的错误信息是

0 投票
1 回答
751 浏览

hadoop - Spark RDD take() 和序列文件

在 SequenceFile 的支持下,它看起来RDD.take()只是重复读取的最后一个元素。
例如:

输出:

即使我知道这些行是独一无二的。

这个问题也存在于sc.binaryRecords().

我意识到这可能与 Hadoop Writable 缓存问题有关,但是是否有解决此问题的计划?有什么变通办法吗?

0 投票
1 回答
8027 浏览

python - 如何在 python 中从 HDFS 序列文件加载数据

我有一个 map reduce 程序正在运行以读取 HDFS 文件,如下所示:

有什么需要确认的,路径 /user/data/* 有文件夹,包括文件, /user/data/* 将迭代所有子文件夹下的所有文件,对吗?

hdfs 文本文件的每一行都包含一个 JSON 字符串,因此映射器读取文件如下:

但是 HDFS 的所有者将文件从文本更改为序列文件。我发现 map reduce 程序输出了很多零大小的文件,这可能意味着它没有成功地从 HDFS 读取文件。

我应该对代码进行哪些更改以便可以从序列文件中读取?我还有一个 HIVE 外部表来根据 mapreduce 的输出执行聚合和排序,并且 HIVE 之前是 STORED AS TEXTFILE ,我应该更改为 STORED AS SEQUENCEFILE 吗?

谢谢,

0 投票
0 回答
468 浏览

opencv - 如何使用 opencv 和 MrJob 从 Hadoop 序列文件中读取图像?

我用tar-to-seq.jar从充满图像的 tar 文件创建了序列文件。现在我想用该序列文件的字节创建图像并分析它们。我使用的是 opencv 3.0.0 和 mrjob 0.5 版本。

我无法使用 cv2.imdecode() 方法读取图像并且我得到空值

运行此操作的结果是:

我越来越:

我在该序列文件中打包了 2731 个图像,所以我猜它打包得很好,但不知何故我无法将它们作为图像读取。有人有什么想法吗?