问题标签 [google-cloud-bigtable]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
910 浏览

google-bigquery - 从 BigQuery 到 Cloud Bigtable 的 Google Cloud Dataflow 管道中的异常

执行 DataFlow 管道时,我们偶尔会看到这些异常。我们能对他们做些什么吗?我们有一个非常简单的流程,它从 BigQuery 查询中读取数据并在 BigTable 中填充数据。

管道内的数据也会发生什么?是否经过再加工?还是在传输到 BigTable 的过程中丢失了?

以下是我们得到的异常:

2016-08-22T21:47:33.469Z: 错误: (84707221e08b977b): java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeExc ption: org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: 1 次操作失败:StatusRuntimeException:1 次,在 com.google.cloud.dataflow.sdk.util.DoFnRunnerBase$ 的 com.google.cloud.dataflow.sdk.runners.worker.SimpleParDoFn$1.output(SimpleParDoFn.java:162) DoFnContext.outputWindowedValue(DoFnRunnerBase.java:287) 在 com.google.cloud.dataflow.sdk.util.DoFnRunnerBase$DoFnProcessContext.output(DoFnRunnerBase.java:449) 在 com.nytimes.adtech.dataflow.pipelines.BigTableSegmentData$2.processElement (BigTableSegmentData.java:70) 引起:com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsExcept 上:失败 1 次操作:StatusRuntimeException:1 次,在 com.google.cloud.dataflow.sdk.util.UserCodeException.wrapIf(UserCodeException) 的 com.google.cloud.dataflow.sdk.util.UserCodeException.wrap(UserCodeException.java:35) .java:40) 在 com.google.cloud.dataflow.sdk.util.DoFnRunnerBase.wrapUserCodeException(DoFnRunnerBase.java:368) 在 com.google.cloud.dataflow.sdk.util.SimpleDoFnRunner.invokeProcessElement(SimpleDoFnRunner.java:51 ) 在 com.google.cloud.dataflow.sdk.util.DoFnRunnerBase.processElement(DoFnRunnerBase.java:138) 在 com.google.cloud.dataflow.sdk.runners.worker.SimpleParDoFn.processElement(SimpleParDoFn.java:190) 在com.google.cloud.dataflow.sdk.runners.worker.ForwardingParDoFn.processElement(ForwardingParDoFn.java:42) 在 com.google.cloud.dataflow.sdk.runners.worker。DataflowWorkerLoggingParDoFn.processElement(DataflowWorkerLoggingParDoFn.ava:47) 在 com.google.cloud.dataflow.sdk.util.common.worker.ParDoOperation.process(ParDoOperation.java:53) 在 com.google.cloud.dataflow.sdk.util。 common.worker.OutputReceiver.process(OutputReceiver.java:52) 在 com.google.cloud.dataflow.sdk.runners.worker.SimpleParDoFn$1.output(SimpleParDoFn.java:160) 在 com.google.cloud.dataflow.sdk .util.DoFnRunnerBase$DoFnContext.outputWindowedValue(DoFnRunnerBase.java:287) 在 com.google.cloud.dataflow.sdk.util.DoFnRunnerBase$DoFnProcessContext.output(DoFnRunnerBase.java:449) 在 com.nytimes.adtech.dataflow.pipelines .BigTableSegmentData$2.processElement(BigTableSegmentData.java:70) 在 com.google.cloud.dataflow.sdk.util.SimpleDoFnRunner。com.google.cloud.dataflow.sdk.util.DoFnRunnerBase.processElement(DoFnRunnerBase.java:138) 的 invokeProcessElement(SimpleDoFnRunner.java:49) com.google.cloud.dataflow.sdk.runners.worker.SimpleParDoFn.processElement( SimpleParDoFn.java:190) 在 com.google.cloud.dataflow.sdk.runners.worker.ForwardingParDoFn.processElement(ForwardingParDoFn.java:42) 在 com.google.cloud.dataflow.sdk.runners.worker.DataflowWorkerLoggingParDoFn.processElement( DataflowWorkerLoggingParDoFn.ava:47) 在 com.google.cloud.dataflow.sdk.util.common.worker.ParDoOperation.process(ParDoOperation.java:53) 在 com.google.cloud.dataflow.sdk.util.common.worker。 OutputReceiver.process(OutputReceiver.java:52) 在 com.google.cloud.dataflow.sdk.util.common.worker.ReadOperation.runReadLoop(ReadOperation.java:226) 在 com.google.cloud.dataflow.sdk.util.common.worker.ReadOperation.start(ReadOperation.java:167) 在 com.google.cloud.dataflow.sdk.util.common.worker.MapTaskExecutor.execute( MapTaskExecutor.java:71) 在 com.google.cloud.dataflow.sdk.runners.worker.DataflowWorker.executeWork(DataflowWorker.java:288) 在 com.google.cloud.dataflow.sdk.runners.worker.DataflowWorker.doWork( DataflowWorker.java:221) 在 com.google.cloud.dataflow.sdk.runners.worker.DataflowWorker.getAndPerformWork(DataflowWorker.java:173) 在 com.google.cloud.dataflow.sdk.runners.worker.DataflowWorkerHarness$WorkerThread。 doWork(DataflowWorkerHarness.java:193) 在 com.google.cloud.dataflow.sdk.runners.worker.DataflowWorkerHarness$WorkerThread.call(DataflowWorkerHarness.java:173) 在 com.google.cloud.dataflow.sdk。runners.worker.DataflowWorkerHarness$WorkerThread.call(DataflowWorkerHarness.java:160) 在 java.util.concurrent.FutureTask.run(FutureTask.java:266) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) 在 java.lang.Thread.run(Thread.java:745)

造成的:

org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException:失败 1 次操作:StatusRuntimeException:1 次,在 com.google.cloud.bigtable.hbase.BigtableBufferedMutator.handleExceptions(BigtableBufferedMutator.java:389) 在 com.google.cloud.bigtable .hbase.BigtableBufferedMutator.mutate(BigtableBufferedMutator.java:274) 在 com.google.cloud.bigtable.dataflow.CloudBigtableIO$CloudBigtableSingleTableBufferedWriteFn.processElement(CloudBigtabl IO.java:966)

从 Dataflow 控制台复制的异常

2016-08-23 (13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop .... 2016-08-23 (13:17 :54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop.... 2016-08-23 (13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop.... 2016-08-23 (13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk .util.UserCodeException: org.apache.hadoop.... 2016-08-23 (13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache。 hadoop.... 2016-08-23 (13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop.... 2016-08- 23 (13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util。UserCodeException: org.apache.hadoop.. 2016-08-23 (13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop.. .. 2016-08-23 (13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop .... 2016-08-23 (13 :17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop.... 2016-08-23 (13:17:54) java.lang. RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop .... 2016-08-23 (13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow .sdk.util.UserCodeException: org.apache.hadoop.... 2016-08-23 (13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org. apache.hadoop.... 2016-08-23 (13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop.... 2016-08-23 (13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util .UserCodeException: org.apache.hadoop.... 2016-08-23 (13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop。 ... 2016-08-23 (13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop .... 2016-08-23 ( 13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop.... 2016-08-23 (13:17:54) java.lang .RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop.... 2016-08-23 (13:17:54) java.lang.RuntimeException: com.google.cloud。 dataflow.sdk.util.UserCodeException: org.apache.hadoop.... 2016-08-23 (13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop.... 2016-08-23 (13:17:54) java.lang.RuntimeException: com .google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop.... 2016-08-23 (13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk。 util.UserCodeException: org.apache.hadoop.... 2016-08-23 (13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop .... 2016-08-23 (13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop .... 2016-08-23 (13:17:54) java.lang.RuntimeException:UserCodeException: org.apache.hadoop.. 2016-08-23 (13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop.. .. 2016-08-23 (13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop .... 2016-08-23 (13 :17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop.... 2016-08-23 (13:17:54) java.lang.运行时异常:UserCodeException: org.apache.hadoop.. 2016-08-23 (13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop.. .. 2016-08-23 (13:17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop .... 2016-08-23 (13 :17:54) java.lang.RuntimeException: com.google.cloud.dataflow.sdk.util.UserCodeException: org.apache.hadoop.... 2016-08-23 (13:17:54) java.lang.运行时异常:UserCodeException: org.apache.hadoop.... 2016-08-23 (13:17:54) java.lang.RuntimeException:UserCodeException: org.apache.hadoop.... 2016-08-23 (13:17:54) java.lang.RuntimeException:

提前致谢

0 投票
2 回答
475 浏览

google-cloud-dataflow - 在 Google Cloud Bigtable 中填充数据需要很长时间

我正在使用以下代码将数据填充到 Bigtable 中:

我们有 30 个 Bigtable 节点,我的数据流工作需要 100 个工作人员,整个过程要处理大约 100 亿行数据,在上述配置下,我的工作需要一天多的时间才能完成,这并不理想。

代码级别的任何建议可以让我们更快地运行我们的工作,我知道增加 Bigtable 节点的数量是一种选择,但目前,我正在寻找其他不需要增加节点的选项。

0 投票
1 回答
578 浏览

google-bigquery - 跨 Cloud Bigtable 和 BigQuery 联接表

是否可以跨 Cloud Bigtable 和 BigQuery 加入 2 个表?我在谷歌上搜索了很多,但找不到与此相关的任何内容。任何帮助,将不胜感激。

0 投票
1 回答
165 浏览

google-cloud-bigtable - bigtable 中的作业级限制和优先级设置

我有一个谷歌云大表部署,其中有几个表和几个读取/写入的作业。有时,有人启动了一项占用大部分 bigtable 带宽的工作,而其他工作无法访问 bigtable。

有没有办法可以指定每个作业的 qps 限制或优先级,以便一个作业不使用所有带宽或 cpu?

0 投票
1 回答
256 浏览

java - Google Cloud Bigtable Java 客户端 - tcnative 错误

我正在尝试连接到 Cloud Bigtable;但是,我遇到了netty-tcnative找不到的问题。

Maven依赖:

错误输出:

0 投票
1 回答
358 浏览

nullpointerexception - 使用 Apache Beam 的数据流 sdk 写入 BigTable 时捕获 NullPointerException

我正在使用Apache's Beamsdk 版本并尝试使用runner0.2.0-incubating-SNAPSHOT 将数据拉到一个 bigtable 中。Dataflow不幸的是,我NullPointerException在执行用作接收器的数据流管道时遇到了问题BigTableIO.WriteBigtableOptions根据我的需要,已经检查了我的参数并没有问题。

基本上,我创建并在我的管道的某个点上,我有步骤将其写入PCollection<KV<ByteString, Iterable<Mutation>>>我想要的大表:

在执行管道时,我得到了NullPointerException,在方法中准确地指出了 BigtableIO 类public void processElement(ProcessContext c)

我检查了此方法是否在处理所有元素之前在 bigtable 上写入,但不确定为什么我会超时执行此管道。根据下面的代码,此方法使用bigtableWriter属性来处理每个c.element(),但我什至无法设置断点来调试null. 有关如何解决此问题的任何建议或建议?

谢谢。

0 投票
2 回答
439 浏览

google-cloud-dataflow - Bigtable“写请求”不一致

我正在使用数据流作业将数据从谷歌存储写入 BigTable,我正在使用 3 个节点的 BigTable 集群,并且有 25 个工作人员在我的数据流作业中并行工作

当我检查大表的“写请求”图表时,我观察到它在 1.5k-9k 之间波动,据我所知,它应该保持一致,因为我一直在传递数据。

当我检查日志时,我发现这个语句出现得太频繁了'Retrying failed call. Failure #1, got: Status{code=UNAVAILABLE, description=Temporary problem while looking up metadata for table AID_KRUXID, cause=null}'

只是想了解为什么我在“写请求”中看到这种变化,上面的记录器语句对写请求有任何影响,还是有其他我不知道的原因?

谢谢!提前

0 投票
2 回答
1286 浏览

google-cloud-bigtable - Google Cloud Bigtable 上的 TTL

我有一个只有一个列族的表,该列的 TTL 为 24 小时,但我需要在截止日期之前删除一些数据。

为了达到这个目标,我伪造了插入日期。例如:如果我需要在插入后 1 小时删除一行,我将插入日期设置为 23 小时前。这种机制运行良好,Bigtable 在一小时后删除了我的数据,但我不知道这是否会在 Bigtable 的内部工作流程中产生错误。

我可以继续使用它还是有其他方法可以做到这一点?

0 投票
1 回答
2154 浏览

java - 如何使用 HBase API 删除 Google Cloud Bigtable 中单行的列

我正在使用 HBase API 访问 Google Cloud Bigtable,但每当我尝试删除列时:

我得到一个UnsupportedOperationException

我在代码中看到它出现在这里

我可以从 HBase Java 客户端删除整行,也可以使用 HBase shell 删除单个列。

如何在不删除 Java 客户端中的行的情况下删除列?

0 投票
2 回答
382 浏览

google-bigquery - BigQuery Schema design for arbitrary tags

I'm investigating the feasibility of using BigQuery to store sensor data in time series. The intent is to store the data in BQ and process it in Pandas... so far so good... Pandas can interpret a TIMESTAMP field index and create a Series.

An additional requirement is that the data support arbitrary tags as key/value pairs (e.g. job_id=1234, task_id=5678). BigQuery can support this nicely with REPEATED fields of type RECORD:

This works great for storing the data and it even works great for querying if I only need to filter on a single key/value combination

However, I also need to be able to combine sets of tags in query expressions and I can't seem to make this work. For example this query returns no result

Questions: Is it possible to formulate a query to do what I want using this schema? What is the recommended way to attach this type of variable data to an otherwise fixed schema in Big Query?

Thanks for any help or suggestions!

Note: If you're thinking this looks like a great fix for InfluxDB it's because that's what I've been using thus far. The seemingly insurmountable issue is the amount of series cardinality in my data set, so I'm looking for alternatives.