问题标签 [bigsql]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
619 浏览

apache-spark - 使用 spark 中的 Pushdown 查询,如何在 spark-HBASE(BIGSQL 作为 SQL 引擎)中获得并行性?

在 Spark PushdownQuery 中,由数据库的 SQL 引擎处理,并根据它的结果构造数据帧。因此,火花查询该查询的结果。

我可以从 spark - mysql 中的另一个参考(https://dzone.com/articles/how-apache-spark-makes-your-slow-mysql-queries-10x)中看到,下推查询的并行性是通过触发多个基于参数 numPartitions 和 partitionColumn 的查询。这与 sqoop 的分布方式非常相似。比如说上面给出的参数 numPartitions = 4 的例子;partitionColumn = COUNTRY_CODE 并且在我们的表中 COUNTRY_CODE 的值范围落在 (000,999) 上。

构建了 4 个查询;发射到 DB 和数据帧是根据这些结果构建的(在这种情况下并行度为 4)。

我现在的问题是,如何在 spark (version 2.1) + hbase (Query engine - BIGSQL) 中使用这种方法实现并行性?它现在没有给我并行性。桥接 spark-hbase 的驱动程序是否需要更新?或火花需要这样做?或者什么样的改变有助于它实现这一目标?一些方向对我有帮助。谢谢 !

0 投票
2 回答
347 浏览

shell - 如何使用 Big SQL 命令通过 shell 脚本自动与 HIVE 同步?

我编写了一个小 shell 脚本来自动化 Big SQL 和 HIVE 同步。代码如下

不幸的是,我收到消息:

然后它进入 Big SQL 命令提示符。现在,当我键入“退出”并按 Enter 时,它会给我以下消息:

我究竟做错了什么?

0 投票
1 回答
114 浏览

hive - 为什么 Hive 和 bigSQL 中存在 1 条记录的数据不匹配?

我创建了一个配置单元表并将其集成到 bigSQL。在 hive 中我的计数是正确的,但在 bigSQL 中,记录计数是额外的 1。下面是我用来创建 hive 表的表属性。

我正在加载的文本文件在第一行有列名。所以我必须使用

当我在配置单元中进行计数查询时,我得到低于输出

但是,当我在 bigSQL 中同步表时,我的计数低于

任何想法,我在哪里犯了错误?

谢谢

0 投票
1 回答
76 浏览

bigsql - 如何在 bigsql 中找到 YYYY_MM_DD 格式日期的天数差异?

YYYY-MM-DD我想在格式上找到两个日期之间的差异。例如,我有 2 个日期2018-10-312018-11-07. 我想在 BigSql 中找到这两个日期(7 天)之间的天数差异。我已经浏览了堆栈溢出和其他网站,但找不到任何有用的东西,因为 BigSql 的资源很少。

我尝试了以下查询,该查询适用于 sql server 但不适用于 bigsql:

任何帮助,将不胜感激

谢谢

0 投票
1 回答
24 浏览

bigsql - 如何将子目录数据读入bigsql表?

Bigsql 无法像 hive 那样通过设置参数从子目录中读取数据。

我尝试将上述参数添加到 bigsql 表属性中,但它无法读取子目录数据。

我需要在 bigsql 中设置哪些参数来读取子目录数据?

0 投票
0 回答
335 浏览

hadoop - 在镶木地板文件上创建外部表时,BIGSQL 中的列顺序是否重要

在我的 spark 代码中,我将我的数据帧写为 hdfs 上的 parquet 文件。然后我通过在 BIGSQL 中更改这些镶木地板文件的列顺序创建了一个外部表,并在查询表后显示以下错误。

但是如果我在配置单元中查询同一张表,它可以工作文件。我们按列映射得到输出。

在 parquet 文件上创建外部表时,bigsql 是否支持列到列映射?

0 投票
1 回答
67 浏览

hadoop - 如何将字符串数据存储在长度大于 VARCHAR(32k) 的 BIGSQL 表中

当我在我的 BigSQL 表中加载数据时,超过 32762 个字符的数据被截断。我的表定义如下:

CREATE hadoop TABLE schema_name.table_name ( column1 VARCHAR(50), column2 INTEGER, column3 STRING, loaddate TIMESTAMP ) 存储为 PARQUET;

for column3 被截断。有没有办法存储完整的数据?

0 投票
0 回答
424 浏览

hadoop - TIMESTAMP 列未解释 HDP3.1 中 ORC 文件的正确值

作为集群迁移的一部分,我们将 ORC hdfs 文件从旧集群 - IBM IOP 4.2 复制到 HDP 3.1。迁移后,我们看到 TIMESTAMP 列在 HDP 3.1 中显示 -1 小时。类似问题发布在 - Hive 1.1 中的时间戳问题

我们交叉检查了集群中所有节点的 TIME ZONE 配置 - Linux OS 和 Hive,并且都设置为 EDT(本地时区)。

尝试通过使用 hive -orcfiledump -d 读取 ORC 文件内容来测试此场景,我们看到实际文件在 orc 文件中具有正确的时间戳值。即使 Hive 正在读取它并显示记录,列值也会发生变化。

OLD 集群上的 ORC 外​​部表输出。

新 HDP 3.1 集群上的 ORC 外​​部表输出。DTDATE 列显示 -1 小时

0 投票
2 回答
333 浏览

db2 - 使用 DB2CLI 时抑制标头

在使用 DB2CLI 命令时,我们得到 IBM 版权信息和页脚详细信息。是否有任何选项可以抑制页眉和页脚信息?

输出

尝试使用 set headers=off,这通常适用于 jsqsh,但不适用于 DB2CLI,任何线索都值得赞赏。

0 投票
1 回答
43 浏览

sql - 在 BigSQL Hadoop 外部表中存储超过 32762 个字符的文本

我想存储大小为 70000 的文本,但 BigSQL Hadoop 外部表将最大字段长度限制为 32762。我不想修剪或拆分为多个列。是否有任何其他数据类型可以让我加载完整数据。