问题标签 [hbasestorage]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
320 浏览

hbase - 使用 PIG 脚本将数据加载到 HBase

Yarn、HBase、Hive 服务在 HDP 2.1 设置(伪分布式模式)上运行。为了将数据加载到 hBase,我正在使用 PIG 内置支持(org.apache.pig.backend.hadoop.hbase.HBaseStorage)功能。问题是它在本地模式下工作正常,但在 MR 模式下运行时,它不返回任何错误,只是作业失败。甚至 Job 历史也不存在。

我在“hdfs”用户下运行 PIG 脚本,并在 pig-env.sh 中设置了 HBASE_HOME 的 Env.Variable。并将 HBASE_JARS/ZOOKEEPER_JARS 添加到 HADOOP_CLASSPATH。

我什至遵循了这个,http://hortonworks.com/community/forums/topic/error-reading-file-from-hdfs-and-storing-in-hbase-using-pig/

帮帮我吧伙计们!!

谢谢

0 投票
1 回答
154 浏览

java - 尝试使用 Java API 填充 Titan-HBase 组合时出现异常

我正在尝试使用 Java API 在我的本地计算机中填充单节点 Titan-HBase。当尝试在 Titan 中使用 HBase 后端构建边缘索引时,使用以下代码,

我收到以下异常:

我正在使用 Titan 0.5.0M1 和 HBase 0.94.23。

JPS 返回的结果:14951 LoadIntoHBase 14674 Elasticsearch 14379 HMaster 17987 Jps

我对使用 HBase 的 Titan 很陌生,如果有人能指出我关于这个错误的正确方向,那就太好了。指向任何提供使用代码填充 Titan-HBase 设置的示例代码的帖子的指针也将非常有用。

0 投票
0 回答
297 浏览

java - 通过java程序从另一台windows机器访问windows HBase

  • 我在 Windows 机器中有 HBase。
  • 我尝试通过 java 程序从另一台 Windows 机器访问相同的内容。
  • 结果与拒绝连接错误。

笔记:

  • 我在 Linux 中尝试了同样的方法,效果很好。我在 Linux 机器中有 HBase 并通过 java 从 Windows 机器访问它。仅当我尝试从 Linux 或 Windows 访问 Windows HBase 时才会出现问题

hbase-env.sh:

以下两行未注释;

hbase-site.xml:

Java代码:

例外:

0 投票
1 回答
4908 浏览

hadoop - 节点 /hbase 不在 ZooKeeper 中

在本地单节点 Hadoop (HortonWorks) 上运行 PredictionIO 时,出现以下错误:

我应该如何在本地 Hadoop 安装上配置 HBase + Zookeepr?

0 投票
2 回答
4953 浏览

mongodb - 哪种 NoSQL 技术可以代替 MOLAP 多维数据集进行即时查询?

我想知道您能否告诉我应该为我的场景使用哪些 NoSQL 数据库或技术/工具。我们正在考虑用开源技术替换基于 SQL 服务器分析服务的 OLAP 多维数据集,因为数据变得太大而无法管理,查询需要很长时间才能返回。我们已经按照书中的每一条规则对数据进行分片,通过使用聚合和分区等优化多维数据集的设计,但我们的一些不同计数查询仍然需要 1-2 分钟 :( 我们的事实表的数据大小大约是250GB。并且有 10-12 个维度以星型模式连接。

因此,我们决定尝试使用 Hadoop/HBase/NoSQL dbs 等开源技术,看看它们是否能够以最少的设置和引导来解决我们的 OLAP 场景。

我们对新技术的主要要求是

  1. 对于不同的计数查询(< 2 秒),它必须获得极快或即时的结果

  2. 支持度量和维度的概念(如在 OLAP 中)。

  3. 支持类似 SQL 的查询语言,因为我们的许多开发人员都是 SQL 专家。
  4. 能够连接 Excel/Tableau 以可视化数据。

由于当今开源世界中有如此多的新技术和工具,我希望您能帮助我指出正确的方向。

0 投票
0 回答
720 浏览

hbase - Hbase 读取优化

我在我的 hbase 集群中使用了 5 个 regionserve。我只是将 url 的 md5 哈希存储为行键,并且只有一个包含数据字段的列族包含与键对应的数据(每行包含大小约为 30 KB 的数据)。我的请求是读取密集型的(写入很少,读取很大)。我已经使用 5 的预拆分(在 5 个区域服务器上统一存储数据)为我的集群完成了大约 300000 个条目的基准标记,并且我得到了大约 200 的 qps。在基准测试中,我运行了 150 个线程来查询从单独的客户端框中读取的内容。

这个qps对我来说太少了。可以做哪些优化来提高读qps(如果写qps会因为优化而降低,对我来说没关系)。截至目前,我正在使用 hbase 的默认配置。包括 master 在内的每个 regionserver 都有 8 GB RAM 和 4 个内核。我的集群位于同一区域的 AWS 中。

0 投票
1 回答
702 浏览

hbase - 将数据从 pig 导出到 hbase

我无法在 cloudera cdh3 中将数据从 pig 加载到 hbase。它在我转储数据时向我显示数据,但是当我尝试使用 store 命令将数据从 pig 放入 hbase 时,它​​能够找到表并启动 mapreduce 任务。但最终它显示以下错误消息->

未能从“test/NYSE_daily_prices_Q.csv”读取数据

最后

2015-02-16 11:29:44,266 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 失败!2015-02-16 11:29:44,268 [main] 错误 org.apache.pig.tools.grunt.GruntParser - 错误 2999:意外的内部错误。行键无效日志文件中的详细信息:/home/cloudera/pig_1424114902913.log

这是我使用的代码。有人可以帮我解决这个问题。

data = LOAD '/test/NYSE_daily_prices_Q.csv' USING PigStorage(',') AS (exchange:chararray,symbol:chararray,date:chararray,stock_price_open:float, stock_price_high:float,stock_price_low:float,stock_price_close:float,stock_volume: int,stock_price_adj_close:float);

转储数据;

将数据存储到 'hbase://NYStockDetails' 使用 org.apache.pig.backend.hadoop.hbase.HBaseStorage('info:exchange info:symbol info:date info:stock_price_open info:stock_price_high info:stock_price_low info:stock_price_close info:stock_volume信息:stock_price_adj_close');

0 投票
2 回答
149 浏览

hive - 如何使用 Hive 查看不同版本的 Hbase 数据?

如何在 Hive 中查看不同版本的 Hbase 数据。根据我对使用 HbaseStorageHandler 的理解,Hive 中只有最新版本的 Hbase 数据可用。我的理解是否正确/更新?

有什么方法可以使用 Hive 访问不同版本的 Hbase 数据?

提前致谢 :)

(Hbase-Hive 集成的新手)

0 投票
1 回答
3069 浏览

nosql - 如何根据 HBase shell 中的行模式扫描行?

我想使用匹配某些模式的行从 HBase shell 扫描 HTable 中的行。

例如,我有下表数据:

根据上述数据,我想找到包含 't1' 的行:

我知道我可以使用 PrefixFilter 扫描表,但此方法采用以指定过滤器开头的行。

是否有类似的基于过滤行名中间模式匹配的行来扫描表的方法?

0 投票
1 回答
511 浏览

hadoop - 覆盖 HBase id

当我向 hbase 表添加重复条目时会发生什么。碰巧看到该列的更新时间戳。hbase 中是否有任何属性可以选择在添加到表时避免/允许覆盖?