“google-cloud-bigtable”的相关标签问题

0 投票

2 回答

606 浏览

是否有计划让 Cloud Dataflow 将数据写入 Cloud Bigtable？甚至可能吗？

添加一个自定义Sink来处理 IO 可能是一个干净的选择。

作为一种解决方法，我尝试在一个简单的DoFn. 在步骤中打开连接和表并在中startBundle关闭它们finishBundle。

此外，我添加bigtable-hbase jar (0.1.5)到类路径和修改后的版本hbase-site.xml到被拾取的资源文件夹。

在云中运行时，出现NPN/ALPN extensions not installed异常。

在本地运行时，我收到一个异常，指出ComputeEngineCredentials cannot find the metadata server.尽管已将设置GOOGLE_APPLICATION_CREDENTIALS为生成的 json 密钥文件。

任何帮助将不胜感激。

2015-06-09T12:40:31.757

0 投票

1 回答

315 浏览

我正在尝试构建一些过滤器来过滤来自 Bigtable 的数据。我正在使用bigtable-hbase驱动程序和 HBase 驱动程序。实际上，这是我的依赖项pom.xml：

我正在过滤这样的数据：

这工作正常。但后来我在前面的代码中添加了以下内容：

它给了我这个例外：

所以我的问题是如何过滤长数据类型？是 hbase 问题还是 bigtable 问题？

我发现这个How do you use a custom comparison with SingleColumnValueFilter on HBase? 但我无法将我的罐子加载到服务器上，所以它不适用于我的情况。

2015-06-10T11:07:06.993

0 投票

1 回答

982 浏览

我希望 Google 的某个人就Cloud Bigtable服务提供的持久性和可用性保证提供一些指导。

到目前为止，这是我的理解：

最小集群需要 3 个节点这一事实表明，至少在一个区域内，数据是高度持久的，并且可以复制到 3 个节点。
然而，谷歌员工的这个回答指出“Cloud Bigtable 不会复制数据”——这与Cloud Bigtable 主页上声称它“使用复制的存储策略构建”的引述直接矛盾。那么它是哪一个？是复制还是不复制？如果是这样，保留多少份？
只能在特定区域内设置集群这一事实表明，集群的可用性与该区域的可用性直接相关。那么如果我想拥有一个高可用的基于 Bigtable 的数据存储，最好是跨多个区域设置独立集群并自己处理跨集群的写入同步吗？

没有关于跨区域的 Bigtable 集群是否独立的信息。如果我要跨多个区域设置集群，并且一个区域出现故障，我们是否可以期望其他区域中的集群继续工作？或者是否存在一些潜在的单点故障，甚至可能影响跨区域的集群？

与对这些细节非常具体的 App Engine 数据存储区相比，Cloud Bigtable 文档相当缺乏——或者，至少，我还没有找到一个详细介绍这些方面的页面。

Cloud Bigtable 文档在其他方面同样含糊不清，例如在值的大小限制问题上，文档指出单个值应保持在“每个单元格约 10 MB”以下。“~10 MB”到底是什么意思？！我可以硬编码一个正好为 10MB 的限制并期望它始终有效，还是会根据未知因素每天发生变化？

无论如何，如果我听起来很激动，请道歉。我真的很想使用 Bigtable 服务。但我可能和其他许多人一样，需要先了解它的耐用性/可用性方面，然后才能对其进行投资。谢谢你。

2015-06-10T13:18:51.837

0 投票

1 回答

231 浏览