问题标签 [hbasestorage]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hbase - 使用 PIG 脚本将数据加载到 HBase
Yarn、HBase、Hive 服务在 HDP 2.1 设置(伪分布式模式)上运行。为了将数据加载到 hBase,我正在使用 PIG 内置支持(org.apache.pig.backend.hadoop.hbase.HBaseStorage)功能。问题是它在本地模式下工作正常,但在 MR 模式下运行时,它不返回任何错误,只是作业失败。甚至 Job 历史也不存在。
我在“hdfs”用户下运行 PIG 脚本,并在 pig-env.sh 中设置了 HBASE_HOME 的 Env.Variable。并将 HBASE_JARS/ZOOKEEPER_JARS 添加到 HADOOP_CLASSPATH。
帮帮我吧伙计们!!
谢谢
java - 尝试使用 Java API 填充 Titan-HBase 组合时出现异常
我正在尝试使用 Java API 在我的本地计算机中填充单节点 Titan-HBase。当尝试在 Titan 中使用 HBase 后端构建边缘索引时,使用以下代码,
我收到以下异常:
我正在使用 Titan 0.5.0M1 和 HBase 0.94.23。
JPS 返回的结果:14951 LoadIntoHBase 14674 Elasticsearch 14379 HMaster 17987 Jps
我对使用 HBase 的 Titan 很陌生,如果有人能指出我关于这个错误的正确方向,那就太好了。指向任何提供使用代码填充 Titan-HBase 设置的示例代码的帖子的指针也将非常有用。
java - 通过java程序从另一台windows机器访问windows HBase
- 我在 Windows 机器中有 HBase。
- 我尝试通过 java 程序从另一台 Windows 机器访问相同的内容。
- 结果与拒绝连接错误。
笔记:
- 我在 Linux 中尝试了同样的方法,效果很好。我在 Linux 机器中有 HBase 并通过 java 从 Windows 机器访问它。仅当我尝试从 Linux 或 Windows 访问 Windows HBase 时才会出现问题
hbase-env.sh:
以下两行未注释;
hbase-site.xml:
Java代码:
例外:
hadoop - 节点 /hbase 不在 ZooKeeper 中
在本地单节点 Hadoop (HortonWorks) 上运行 PredictionIO 时,出现以下错误:
我应该如何在本地 Hadoop 安装上配置 HBase + Zookeepr?
mongodb - 哪种 NoSQL 技术可以代替 MOLAP 多维数据集进行即时查询?
我想知道您能否告诉我应该为我的场景使用哪些 NoSQL 数据库或技术/工具。我们正在考虑用开源技术替换基于 SQL 服务器分析服务的 OLAP 多维数据集,因为数据变得太大而无法管理,查询需要很长时间才能返回。我们已经按照书中的每一条规则对数据进行分片,通过使用聚合和分区等优化多维数据集的设计,但我们的一些不同计数查询仍然需要 1-2 分钟 :( 我们的事实表的数据大小大约是250GB。并且有 10-12 个维度以星型模式连接。
因此,我们决定尝试使用 Hadoop/HBase/NoSQL dbs 等开源技术,看看它们是否能够以最少的设置和引导来解决我们的 OLAP 场景。
我们对新技术的主要要求是
对于不同的计数查询(< 2 秒),它必须获得极快或即时的结果
支持度量和维度的概念(如在 OLAP 中)。
- 支持类似 SQL 的查询语言,因为我们的许多开发人员都是 SQL 专家。
- 能够连接 Excel/Tableau 以可视化数据。
由于当今开源世界中有如此多的新技术和工具,我希望您能帮助我指出正确的方向。
hbase - Hbase 读取优化
我在我的 hbase 集群中使用了 5 个 regionserve。我只是将 url 的 md5 哈希存储为行键,并且只有一个包含数据字段的列族包含与键对应的数据(每行包含大小约为 30 KB 的数据)。我的请求是读取密集型的(写入很少,读取很大)。我已经使用 5 的预拆分(在 5 个区域服务器上统一存储数据)为我的集群完成了大约 300000 个条目的基准标记,并且我得到了大约 200 的 qps。在基准测试中,我运行了 150 个线程来查询从单独的客户端框中读取的内容。
这个qps对我来说太少了。可以做哪些优化来提高读qps(如果写qps会因为优化而降低,对我来说没关系)。截至目前,我正在使用 hbase 的默认配置。包括 master 在内的每个 regionserver 都有 8 GB RAM 和 4 个内核。我的集群位于同一区域的 AWS 中。
hbase - 将数据从 pig 导出到 hbase
我无法在 cloudera cdh3 中将数据从 pig 加载到 hbase。它在我转储数据时向我显示数据,但是当我尝试使用 store 命令将数据从 pig 放入 hbase 时,它能够找到表并启动 mapreduce 任务。但最终它显示以下错误消息->
未能从“test/NYSE_daily_prices_Q.csv”读取数据
最后
2015-02-16 11:29:44,266 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 失败!2015-02-16 11:29:44,268 [main] 错误 org.apache.pig.tools.grunt.GruntParser - 错误 2999:意外的内部错误。行键无效日志文件中的详细信息:/home/cloudera/pig_1424114902913.log
这是我使用的代码。有人可以帮我解决这个问题。
data = LOAD '/test/NYSE_daily_prices_Q.csv' USING PigStorage(',') AS (exchange:chararray,symbol:chararray,date:chararray,stock_price_open:float, stock_price_high:float,stock_price_low:float,stock_price_close:float,stock_volume: int,stock_price_adj_close:float);
转储数据;
将数据存储到 'hbase://NYStockDetails' 使用 org.apache.pig.backend.hadoop.hbase.HBaseStorage('info:exchange info:symbol info:date info:stock_price_open info:stock_price_high info:stock_price_low info:stock_price_close info:stock_volume信息:stock_price_adj_close');
hive - 如何使用 Hive 查看不同版本的 Hbase 数据?
如何在 Hive 中查看不同版本的 Hbase 数据。根据我对使用 HbaseStorageHandler 的理解,Hive 中只有最新版本的 Hbase 数据可用。我的理解是否正确/更新?
有什么方法可以使用 Hive 访问不同版本的 Hbase 数据?
提前致谢 :)
(Hbase-Hive 集成的新手)
nosql - 如何根据 HBase shell 中的行模式扫描行?
我想使用匹配某些模式的行从 HBase shell 扫描 HTable 中的行。
例如,我有下表数据:
根据上述数据,我想找到包含 't1' 的行:
我知道我可以使用 PrefixFilter 扫描表,但此方法采用以指定过滤器开头的行。
是否有类似的基于过滤行名中间模式匹配的行来扫描表的方法?
hadoop - 覆盖 HBase id
当我向 hbase 表添加重复条目时会发生什么。碰巧看到该列的更新时间戳。hbase 中是否有任何属性可以选择在添加到表时避免/允许覆盖?