“hawq”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

2791 浏览

scala - 用于 TB 结构化数据的 Greenplum、Pivotal HD + Spark 或 HAWQ？

我在 Greenplum DB 中有 TB 的结构化数据。我需要对我的数据运行本质上是 MapReduce 作业。

我发现自己至少重新实现了 MapReduce 的功能，以便这些数据适合内存（以流式方式）。

然后我决定在别处寻找更完整的解决方案。

我查看了 Pivotal HD + Spark，因为我使用的是 Scala，而 Spark 基准测试令人惊叹。但我相信这背后的数据存储 HDFS 的效率将低于 Greenplum。（注意“我相信”。我很高兴知道我错了，但请提供一些证据。）

因此，为了与 Greenplum 存储层保持一致，我查看了 Pivotal 的 HAWQ，它基本上是 Greenplum 上带有 SQL 的 Hadoop。

这种方法丢失了很多功能。主要是Spark的使用。

还是只使用内置的 Greenplum 功能更好？

所以我正处于不知道哪种方式最好的十字路口。我想处理非常适合关系数据库模型的 TB 数据，我想要 Spark 和 MapReduce 的好处。

我要求太多了吗？

2015-09-11T20:08:50.400

0 投票

1 回答

1441 浏览

apache-spark-sql - 通过 JDBC 驱动将 Spark 连接到 HAWQ

尝试从 Spark 连接到 HAWQ，使用 greenplum 的 odbc/jdbc 驱动程序（从适当的 Pivotal 页面下载）。

使用 Spark 1.4，这是用 python 编写的示例代码：（所有大写字母都有适当的变量分配）...

...

Spark submit 命令将 odbc 驱动程序附加到类路径。我已经使用基本的 sqlContext 实例化完成了一个“hello world”，并且在集群上一切运行良好。但是当我尝试实际连接到 HAWQ postgresql db 时，它不会运行。

错误：

有什么想法或建议吗？我已经尝试了至少 20 种“df = sqlContext.read.load ...”定义的组合，但无济于事。

apache-spark-sql pyspark-sql hawq

2015-09-16T22:39:29.873

0 投票

1 回答

794 浏览

postgresql - 通过 JDBC 从 Spark 提取表数据时出现 PostgreSQL 错误

我让 Spark 到 HAWQ JDBC 连接正常工作，但现在两天后从表中提取数据出现问题。Spark 配置没有任何变化...

简单的步骤 #1 - 从 HAWQ 中的一个简单表中打印模式我可以创建一个 SQLContext DataFrame 并连接到 HAWQ db：

哪个打印：

但是当实际尝试提取数据时：

弹出这些错误...

我尝试过的事情（但如果有更精确的步骤愿意再试一次）：

在 HAWQ 主节点上尝试了“df -i”，利用率只有 1%
在 HAWQ 数据库上尝试了 dbvacuum（不建议在 HAWQ 上使用 VACUUM ALL）
尝试创建这个很小的新数据库（使用单个表，3 列），没有运气

这不可能是实际的内存不足，那么在哪里以及是什么导致了这个问题？

postgresql jdbc pyspark hawq

2015-09-24T23:09:21.377

0 投票

0 回答

529 浏览

apache-spark - 设置用于提取 125 Gb 数据的 spark 内存分配...ExecutorLostFailure

我正在尝试将一个 126 Gb 表从 HAWQ（PostgreSQL，在本例中为 8.2）中提取到 Spark 中，但它无法正常工作。我可以拉小桌子没问题。对于这个我不断收到错误：

我的集群规格如下： 64 核，512 Gb RAM，2 个节点
这是 2 个节点上的 Spark 独立集群（相信我，我想要更多节点，但这就是我得到的全部）。所以我有一个节点作为纯从属节点，另一个节点包含主节点和另一个从节点。

我已经使用 spark-submit 作业尝试了许多内存分配配置，我将在这里列出一些，但没有一个有效：

每次的错误都是一样的——ExecutorLostFailure(executor driver lost)

apache-spark apache-spark-sql hawq

2015-10-08T00:03:32.163

0 投票

2 回答

506 浏览

hadoop - 安装 HAWQ 插件的兼容 Hortonworks 数据平台 (HDP) 版本有哪些

我试图在 hdp 2.3 之上的 ambari 上安装 hawq 插件，但它失败了。我用来检查状态的命令是

在 hdp 上创建 hawq 的过程在这里 [链接] ( http://blog.pivotal.io/big-data-pivotal/pov/pivotal-hawq-lands-in-the-hortonworks-sandbox )。如果有人能说出失败的原因，我将不胜感激

hadoop centos hortonworks-data-platform cloud-foundry hawq

2015-10-23T19:00:07.063

0 投票

1 回答

155 浏览

sql-server - 如何在 DBMS 迁移中避免 MSSQL INTO PIVOTAL HAWQ null 的日期类型列

我们正在尝试将数据从外部源（mssql）提取到 postgres。但是，当我检查 invoicedate 列条目时，mssql 同时显示这些条目的 invoicedate 值。

即我们在两个 DBMS 上都尝试了以下查询：

在 SQL Server 中执行查询时：

获得发票日期列所在的 12 行'2015-10-26 00:00:00.000'

但是在 Postgres 上执行相同的查询

获取列 invoicedate 为空的 12 行。

问题是为什么？PostgresInvoiceDt列将变为空，而不是我们可以看到 SQL Server 正在显示适当的数据值。

为什么这个特定列的 SQL Server 和 Postgres 之间的数据不同？

sql-server data-conversion hawq

2015-10-30T08:20:09.070

0 投票

1 回答

1650 浏览

sql-server - SQL Server 日期时间转换函数等效于 postgresql (pivotal hawq)

我们在 SQL Server 2012 中有以下 SQL 脚本。我们将在数据库转换时在 postgresql (HAWQ 1.3.1) 中编写类似的脚本

我们尝试并编写了以下脚本：

上面的脚本编译成 postgresql (VERSION HAWQ 1.3.1)

还尝试过：

当我们尝试将 ms sql server 转换函数转换为 postgres 以进行 orderdate 列比较时，OrderDate 必须反映为 'MM-01-YYYY'（期望的结果），这实际上是 '00-01-0000' 不想要的。相反，我们正在寻找结果为“2015 年 11 月 1 日”

**

为了得到想要的结果，postgresql 中的 convert() 函数表达式是什么？

**

sql-server postgresql datetime hawq

2015-11-14T10:56:52.707

0 投票

2 回答

313 浏览

postgresql - 当Hawq投诉时我如何解决错误：“SoldToAddr2”列缺少数据

我们有一小群关键的 hadoop-hawq 系统。我们必须读取一张外部表。

即从 ext_table 中选择 *

但是当我在 Hawq 中发出关于以下错误的投诉时：

我们尝试了以下操作：

我们在 ext_table 定义的格式子句中尝试了不同的特殊字符：

错误详情：

即在第 20 行遇到的坏行

解决关键 hadoop-hawq 系统中错误的更好方法是什么？

任何帮助将非常感激？

postgresql hadoop external-tables hawq

2015-12-03T11:59:50.407

0 投票

2 回答

965 浏览

postgresql - Pivotal HDB - 投诉“数据行太长。可能是由于 csv 数据无效”

我们有一个小型的关键 Hadoop-hawq 集群。我们在其上创建了外部表并指向 hadoop 文件。

给定环境：

产品版本：（HAWQ 1.3.0.2 build 14421）在 x86_64-unknown-linux-gnu 上，由 GCC gcc (GCC) 4.4.2 编译

试过：

当我们尝试使用命令从外部表中读取数据时。IE

附加信息：

外部表的 DDL 是：

任何帮助将非常感激？

postgresql greenplum hawq

2016-01-11T19:58:50.207

0 投票

2 回答

105 浏览

sql - HAWQ是否不支持循环中的SQL（while或for，使用plpgsql）？

今天，我定义了一个函数，在循环中使用插入语句。但是HAWQ返回错误：

我做了一些测试，发现当我在循环中使用'insert statements'时，会报错。如果我删除相关的“插入语句”，它可以正常运行。

下面是一个测试示例：

然后我使用'select test_function();' 调用该函数。它将返回上面提到的错误。

这是否意味着我不能在 plpgsql 循环中使用 SQL 语句？

谢谢。此致。

sql database loops hawq

2016-01-14T09:24:13.957

问题标签 [hawq]

Reference