问题标签 [hfile]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
247 浏览

c++ - 是否有任何库可以在 C++ 中使用 HFile 格式

搜索“hfile cpp”是一种很好的体验,但结果并不好。所以我在这里问是否有库支持 C++ 中的 HBase HFile 操作(读取、写入、映射到内存)?

HFile 是 Google 的 SSTable 格式的实现,在 Hadoop 中非常容易使用,例如: http ://hbase.apache.org/apidocs/org/apache/hadoop/hbase/io/hfile/HFile.html http://cloudepr .blogspot.com/2009/09/hfile-block-indexed-file-format-to.html

0 投票
2 回答
696 浏览

hadoop - 减少 HFileOutputFormat 中待处理的作业

我在用

Hbase:0.92.1-cdh4.1.2,和Hadoop:2.0.0-cdh4.1.2

我有一个 mapreduce 程序,它将在集群模式下使用 HFileOutputFormat 将数据从 HDFS 加载到 HBase。在该 mapreduce 程序中,我使用 HFileOutputFormat.configureIncrementalLoad() 批量加载 800000 条记录数据集,其大小为 7.3GB,并且运行良好,但对于 8.3GB 的 900000 条记录数据集,它没有运行。

在 8.3GB 数据的情况下,我的 mapreduce 程序有 133 个 map 和一个 reducer,所有 map 都成功完成。我的 reducer 状态一直处于 Pending 很长一段时间。集群没有任何问题,因为其他作业运行良好,并且该作业也运行良好,最高可达 7.3GB 的数据。

我可能做错了什么?我该如何解决这个问题?

0 投票
1 回答
600 浏览

hadoop - hadoop的TFile和HFile有什么关系?

似乎 hadoop 同时支持 TFile 和 HFile。我想知道当时和它们如何出现之间的区别(例如,HFile 是从 TFile 派生的吗?)。

0 投票
1 回答
747 浏览

hadoop - HBase 批量加载 MapReduce HFile 异常(netty jar)

我正在尝试运行一个简单的 MapReduce 进程来编写 HFile,以便稍后导入 HBase 表。

提交作业时:

我收到以下异常,表明 HDFS 中不存在 netty-3.6.6.Final.jar(但它确实存在于此处)。

恐怕我不明白如何解决这个配置(?)错误。

任何人都可以给我任何建议吗?

这是例外:

这是我的驱动程序:

0 投票
2 回答
4246 浏览

hbase - Hbase FuzzyRowFilter 键的跳跃如何工作

我知道模糊行过滤器需要两个参数,第一个是行键,第二个是模糊逻辑。我从相应的 java 类 FuzzyRowFilter 中了解到,过滤器评估当前行并尝试计算将匹配模糊逻辑的下一个较高行键,并跳过不匹配的键。

我无法理解以下内容

扫描如何跳转某些行键?它是否使用 Get 来获取和比较当前行键。scan 如何知道下一个匹配的行键在哪里?不进行全面扫描(如果它跳跃)

0 投票
1 回答
204 浏览

hbase - H文件大小选择

应该如何在 HBase 设置中选择 HFile 的大小。大多数指南都说应该考虑 8k 到 1MB 之间的大小,但我还没有找到一种明确的方法来根据您存储的数据量来选择 HFile 的大小。

0 投票
2 回答
1065 浏览

hbase - 为什么 HBase 需要为每个 Value 存储 Column Family?

因为 HBase 表是稀疏表,所以 HBase 不仅为每个单元存储值,还存储识别单元所需的所有信息(通常描述为 Key,不要与 RowKey 混淆)。密钥如下所示:

RowKey-ColumnFamily-ColumnQualifier-时间戳

所有这些信息都存储在每个条目中。这就是为什么建议使用 Column Families 和 Column Qualifiers 的短名称来减少额外开销的原因。

我的问题:为什么我需要为每个条目存储 ColumnFamily?据我了解,每个存储文件都属于一个列族。每个存储文件存储一次列族名称还不够吗?这将减少开销,可以使用任意列族名称,并且我们仍然能够识别每个条目的列族。我在这里想念什么?

0 投票
1 回答
1376 浏览

hbase - HBase:数据如何以排序方式写入 HFile?

我对 HFiles 有一个相当基本的怀疑。

当发起 put/insert 请求时,首先将值写入 WAL,然后再写入 memstore。memstore 中的值以与 HFile 中相同的排序方式存储。一旦 memstore 满了,它就会被刷新到一个新的 HFile 中。

现在,我已经读到HFile 按排序顺序存储数据,即顺序行键将彼此相邻

这是100%真实的吗?

例如:我首先用 rowkey 1 到 1000 写入行,除了 rowkey 500。假设 memstore 现在已满,因此它将创建一个新的 HFile,称为 HFile1。现在,这个文件是不可变的。

现在,我将写入第 1001 到 2000 行,然后写入行键 500。假设 memstore 已满并写入 HFile,称为 HFile2。

那么,事情是这样发生的吗?

如果是,则行键 500 不在 HFile1 中,因此 HFiles 中的行键没有排序。那么,粗体的原始陈述是否正确?

那么,当读取发生时,读取是如何发生的呢?

0 投票
4 回答
118 浏览

c++ - 在我的代码中大量包含 .h 文件

我做了几年的程序员。

我总是被告知(并告诉其他人)你应该在你的 .c 文件中只包含你需要的 .h 文件。不多也不少。

但让我问 - 为什么?

使用今天的编译器,我可以包含项目的整个 h 文件,并且不会对编译时间产生巨大影响。

我不是在谈论包括 OS .h 文件,其中包括许多定义、宏和预处理命令。

只包括一个“MyProjectIncludes.h”。那只会说:

你说什么?

0 投票
1 回答
3316 浏览

hadoop - 如何获取 HBase 表的 HFile 大小?

我试图在 HBase 中获取 HFile 的一些指标细节。以下是问题。

  1. 如何获取 Hbase 表的 HFile 的实际位置。
  2. 是否有任何 shell 命令来获取合并的文件大小。

我了解 Hfile 存储在 HDFS 中,因此数据以块的形式存储在不同的数据节点中。但是如何从 HBase 的角度获取合并的数据。