问题标签 [sequencefile]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 以序列文件格式将文件文件 hive 导出到 hdfs
我正在尝试执行配置单元查询,并以SEQUENCE FILE格式将其输出导出到 HDFS 中。
这是我尝试导出数据的查询,
这是错误,
我在这里错过了什么吗?
软件版本:Cloudera hadoop CDH5.3.3,Apache版本0.13.1。
编辑: 在下面更新了我的临时解决方案。
scala - Spark:如何从 objectFile 中读取 CompactBuffer?
我正在从目标文件中读取以下结构:
如果我尝试这样阅读:
我收到以下错误:
但是,我在读取 objectFile 时也不能使用 CompactBuffer:
Eclipse 只会告诉我:
那么如何从 objectFile 中读取这样的 CompactBuffer 呢?谢谢!
protocol-buffers - 在 HDFS 中存储 protobuf 序列化数据的最佳实践
在 HDFS 中存储 protobuf 编码数据的首选方式是什么?目前我看到两种可能的解决方案:
a) 序列文件:存储序列化/编码的二进制数据,即序列文件对应值中的“byte[]”。
b) Parquet:Parquet 提供 protobuf/Parquet 转换器。因此,我的假设是,在使用这些转换器时,二进制数据首先必须反序列化为对象表示,然后必须将该对象传递给 protobuf/Parquet 转换器以将其存储在 Parquet 中。我认为与解决方案 a) 相比,这样做会导致更高的性能成本。由于我必须处理大量的小型 protobuf 编码数据块(由 Kafka 提供的流式车辆数据),因此性能和内存成本是重要的方面。
c) 还有其他选择吗?
总结一下:我正在寻找一种解决方案,将许多小型 protobuf 编码数据块(即车辆传感器数据)存储在 HDFS 中,从而尽可能地保留原始数据。但是,必须确保之后可以使用 Map/Reduce 或 Spark 处理数据。
最好的,托马斯
key - Flume - 如何为 HDFS 序列文件创建自定义键?
我正在使用 Flume 的 HDFS SequenceFile 接收器将数据写入 HDFS。我正在寻找创建“自定义键”的可能性。默认情况下,Flume 使用 Timestamp 作为 SequenceFile 中的键。但是,在我的用例中,我想使用自定义字符串作为键(而不是时间戳)。
在 Flume 中实现/配置这种“自定义键”的最佳实践是什么?
最好的,托马斯
hadoop - Hadoop SequenceFile 与可拆分 LZO
我们正在选择文件格式来存储我们的原始日志,主要要求是压缩和可拆分的。到目前为止,块压缩(无论哪种编解码器)SequenceFiles和Hadoop-LZO看起来最合适。
Map-Reduce 处理哪一个效率更高,整体上更容易处理?
java - Hadoop SequenceFile - 记录的自动增量键
我正在考虑使用 SequenceFile 作为“一个小数据库”来存储小文件。我需要那个并发客户端可以在这个 SequenceFile 中存储小文件并检索一个唯一的 id(记录的键)。
有可能吗?我是hadoop的新手,我读了很多书,但我不知道它是否可能。
如果是,请发布一个小例子(或一些参考),如果不是。我可以用 hadoop 做什么来满足我的需要?
java - 使用 SequenceFile 时出现空指针异常
我正在从事一个涉及 Hadoop 和 Mahout 库的项目。我必须使用 SequenceFile.Writer 将数据写入文件,但在尝试使用 SequenceFile 时出现空指针异常。为了更好地理解我的问题,我编写了一个重新创建问题以及错误消息的测试代码。我还添加了生成示例数据的代码。
首先,我根据 MyUtil 类中的某些分布生成示例数据。然后使用 Mahout 的树冠聚类库传递样本数据以进行树冠聚类(在测试类中)。然后尝试使用 SequenceFile.Writer 将树冠聚类算法产生的质心写入文件。这是我得到空指针异常的地方(创建序列文件编写器时)
在此先感谢您的帮助。
MyUtil.generateSamples 只是生成示例数据(我还添加了下面的代码)。上面的代码抛出的错误信息是
hadoop - Spark RDD take() 和序列文件
在 SequenceFile 的支持下,它看起来RDD.take()
只是重复读取的最后一个元素。
例如:
输出:
即使我知道这些行是独一无二的。
这个问题也存在于sc.binaryRecords()
.
我意识到这可能与 Hadoop Writable 缓存问题有关,但是是否有解决此问题的计划?有什么变通办法吗?
python - 如何在 python 中从 HDFS 序列文件加载数据
我有一个 map reduce 程序正在运行以读取 HDFS 文件,如下所示:
有什么需要确认的,路径 /user/data/* 有文件夹,包括文件, /user/data/* 将迭代所有子文件夹下的所有文件,对吗?
hdfs 文本文件的每一行都包含一个 JSON 字符串,因此映射器读取文件如下:
但是 HDFS 的所有者将文件从文本更改为序列文件。我发现 map reduce 程序输出了很多零大小的文件,这可能意味着它没有成功地从 HDFS 读取文件。
我应该对代码进行哪些更改以便可以从序列文件中读取?我还有一个 HIVE 外部表来根据 mapreduce 的输出执行聚合和排序,并且 HIVE 之前是 STORED AS TEXTFILE ,我应该更改为 STORED AS SEQUENCEFILE 吗?
谢谢,
opencv - 如何使用 opencv 和 MrJob 从 Hadoop 序列文件中读取图像?
我用tar-to-seq.jar从充满图像的 tar 文件创建了序列文件。现在我想用该序列文件的字节创建图像并分析它们。我使用的是 opencv 3.0.0 和 mrjob 0.5 版本。
我无法使用 cv2.imdecode() 方法读取图像并且我得到空值
运行此操作的结果是:
我越来越:
我在该序列文件中打包了 2731 个图像,所以我猜它打包得很好,但不知何故我无法将它们作为图像读取。有人有什么想法吗?