问题标签 [bigsql]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

47 问题

0 投票

1 回答

619 浏览

apache-spark - 使用 spark 中的 Pushdown 查询，如何在 spark-HBASE（BIGSQL 作为 SQL 引擎）中获得并行性？

在 Spark PushdownQuery 中，由数据库的 SQL 引擎处理，并根据它的结果构造数据帧。因此，火花查询该查询的结果。

我可以从 spark - mysql 中的另一个参考（https://dzone.com/articles/how-apache-spark-makes-your-slow-mysql-queries-10x）中看到，下推查询的并行性是通过触发多个基于参数 numPartitions 和 partitionColumn 的查询。这与 sqoop 的分布方式非常相似。比如说上面给出的参数 numPartitions = 4 的例子；partitionColumn = COUNTRY_CODE 并且在我们的表中 COUNTRY_CODE 的值范围落在 (000,999) 上。

构建了 4 个查询；发射到 DB 和数据帧是根据这些结果构建的（在这种情况下并行度为 4）。

我现在的问题是，如何在 spark (version 2.1) + hbase (Query engine - BIGSQL) 中使用这种方法实现并行性？它现在没有给我并行性。桥接 spark-hbase 的驱动程序是否需要更新？或火花需要这样做？或者什么样的改变有助于它实现这一目标？一些方向对我有帮助。谢谢！

2018-08-23T02:15:28.573

0 投票

2 回答

347 浏览

shell - 如何使用 Big SQL 命令通过 shell 脚本自动与 HIVE 同步？

我编写了一个小 shell 脚本来自动化 Big SQL 和 HIVE 同步。代码如下

不幸的是，我收到消息：

然后它进入 Big SQL 命令提示符。现在，当我键入“退出”并按 Enter 时，它会给我以下消息：

我究竟做错了什么？

shell hive bigsql

2018-08-29T10:30:40.973

0 投票

1 回答

114 浏览

hive - 为什么 Hive 和 bigSQL 中存在 1 条记录的数据不匹配？

我创建了一个配置单元表并将其集成到 bigSQL。在 hive 中我的计数是正确的，但在 bigSQL 中，记录计数是额外的 1。下面是我用来创建 hive 表的表属性。

我正在加载的文本文件在第一行有列名。所以我必须使用

当我在配置单元中进行计数查询时，我得到低于输出

但是，当我在 bigSQL 中同步表时，我的计数低于

任何想法，我在哪里犯了错误？

谢谢

hive bigsql

2018-10-01T09:56:41.920

0 投票

1 回答

76 浏览

bigsql - 如何在 bigsql 中找到 YYYY_MM_DD 格式日期的天数差异？

YYYY-MM-DD我想在格式上找到两个日期之间的差异。例如，我有 2 个日期2018-10-31和2018-11-07. 我想在 BigSql 中找到这两个日期（7 天）之间的天数差异。我已经浏览了堆栈溢出和其他网站，但找不到任何有用的东西，因为 BigSql 的资源很少。

我尝试了以下查询，该查询适用于 sql server 但不适用于 bigsql：

任何帮助，将不胜感激

谢谢

bigsql

2019-04-04T19:11:53.260

0 投票

1 回答

24 浏览

bigsql - 如何将子目录数据读入bigsql表？

Bigsql 无法像 hive 那样通过设置参数从子目录中读取数据。

我尝试将上述参数添加到 bigsql 表属性中，但它无法读取子目录数据。

我需要在 bigsql 中设置哪些参数来读取子目录数据？

bigsql

2019-04-10T13:34:07.873

0 投票

0 回答

335 浏览

hadoop - 在镶木地板文件上创建外部表时，BIGSQL 中的列顺序是否重要

在我的 spark 代码中，我将我的数据帧写为 hdfs 上的 parquet 文件。然后我通过在 BIGSQL 中更改这些镶木地板文件的列顺序创建了一个外部表，并在查询表后显示以下错误。

但是如果我在配置单元中查询同一张表，它可以工作文件。我们按列映射得到输出。

在 parquet 文件上创建外部表时，bigsql 是否支持列到列映射？

hadoop hive bigsql

2019-04-25T08:02:56.437

0 投票

1 回答

67 浏览

hadoop - 如何将字符串数据存储在长度大于 VARCHAR(32k) 的 BIGSQL 表中

当我在我的 BigSQL 表中加载数据时，超过 32762 个字符的数据被截断。我的表定义如下：

CREATE hadoop TABLE schema_name.table_name ( column1 VARCHAR(50), column2 INTEGER, column3 STRING, loaddate TIMESTAMP ) 存储为 PARQUET；

for column3 被截断。有没有办法存储完整的数据？

hadoop hive db2 bigdata bigsql

2019-05-28T09:19:04.750

0 投票

0 回答

424 浏览

hadoop - TIMESTAMP 列未解释 HDP3.1 中 ORC 文件的正确值

作为集群迁移的一部分，我们将 ORC hdfs 文件从旧集群 - IBM IOP 4.2 复制到 HDP 3.1。迁移后，我们看到 TIMESTAMP 列在 HDP 3.1 中显示 -1 小时。类似问题发布在 - Hive 1.1 中的时间戳问题

我们交叉检查了集群中所有节点的 TIME ZONE 配置 - Linux OS 和 Hive，并且都设置为 EDT（本地时区）。

尝试通过使用 hive -orcfiledump -d 读取 ORC 文件内容来测试此场景，我们看到实际文件在 orc 文件中具有正确的时间戳值。即使 Hive 正在读取它并显示记录，列值也会发生变化。

OLD 集群上的 ORC 外部表输出。

新 HDP 3.1 集群上的 ORC 外部表输出。DTDATE 列显示 -1 小时

hadoop hive orc bigsql

2019-08-08T19:46:29.407

0 投票

2 回答

333 浏览

db2 - 使用 DB2CLI 时抑制标头

在使用 DB2CLI 命令时，我们得到 IBM 版权信息和页脚详细信息。是否有任何选项可以抑制页眉和页脚信息？

输出

尝试使用 set headers=off，这通常适用于 jsqsh，但不适用于 DB2CLI，任何线索都值得赞赏。

db2 bigsql

2019-08-22T11:15:48.813

0 投票

1 回答

43 浏览

sql - 在 BigSQL Hadoop 外部表中存储超过 32762 个字符的文本

我想存储大小为 70000 的文本，但 BigSQL Hadoop 外部表将最大字段长度限制为 32762。我不想修剪或拆分为多个列。是否有任何其他数据类型可以让我加载完整数据。

sql db2 varchar bigsql

2020-05-22T05:16:19.560

1 2 3 4 5 6 7 8 9 10

问题标签 [bigsql]

Reference