问题标签 [hawq]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
210 浏览

hadoop - 基于 HDFS 构建的 Apache HAWQ 安装

我想安装基于 Hadoop 的 Apache HAWQ。

在安装 HAWQ 之前,我应该安装 Hadoop 并配置我的所有节点。

我有四个节点,如下所示,我的问题是打击。

我应该安装一个hadoop发行版hawq-master吗?

我在上面的节点旁边写了每个节点的角色。在我看来,我应该安装hadoop for hadoop-masterdatanode01并且datanode02我应该设置hadoop-master为namenode(master),其他设置为datanode(slave)。然后,我将在所有节点上安装 apache HAWQ。我将设置hawq-master为主节点和hadoop-masterHAWQ Stand by,最后将另外两个节点设置为 HAWQ 段。

我想要的是安装基于 Hadoop 的 HAWQ。所以,我认为hawq-master应该建立在 hadoop 之上,但与hadoop-master.

如果我继续上述过程,那么我认为我不必在hawq-master. 我的想法是否正确,可以成功安装基于 hadoop 的 HAWQ 安装?

如果应该安装hadoop,hawq-master那么哪个是正确的?

任何帮助将不胜感激。

0 投票
2 回答
345 浏览

apache - Apache HAWQ 中的编译错误。找不到位置

我正在尝试将 Apache HAWQ 安装到我的节点。我参考了 Apache HAWQ wiki 页面(https://cwiki.apache.org/confluence/display/HAWQ/Build+and+Install)并成功完成了所有必需的依赖模块,包括 Hadoop、boost、thrift 等。

下一步是安装 Apache HAWQ,下面是命令。

但是,当我跑步时./configure,我收到错误消息说..

虽然我使用 安装和编译了 thrift configure && make && make install,但是 shell 命令找不到 thrift 库。

因此,我输入了find \ -name 'TBinaryProtocol.h*'thrift 相关模块的安装位置。我收到了以下消息。

这意味着我有节俭模块,并且我认为它们已正确安装在我的目录中。我按照 Apache wiki 页面建议的说明输入ldconfig -p /root/Downloads/hawq/thrift-0.9.1/lib/.

但我得到了同样的错误。最后我搜索了configure.log文件,发现下面的消息,表明它找不到thrift模块的位置。

如何解决这个问题?任何帮助将不胜感激。

0 投票
2 回答
58 浏览

apache - 如果有人尝试在 Quantcast 文件系统 (QFS) 之上安装 Apache HAWQ,我需要建议

我有需要在 Quantcast 文件系统 (QFS) 之上安装 Apache HAWQ 的要求。据我了解,Apache HAWQ 安装在 HDFS 之上。请建议/指导。

0 投票
1 回答
501 浏览

linux - greenplum gpload:配置 YML 文件错误

当我尝试在 greenplum 中执行 gpload 时,它遇到了一个错误。

输入命令:

我得到的错误

配置 YAML 文件内容:

0 投票
1 回答
135 浏览

postgresql - Pivotal GPDB:如何在表和列上运行不带双引号的查询

当我尝试从greenplum查询时。双引号包括在查询数据库时在选择列列表中花费时间。

输入 DDL: 场景是

我得到的错误:

案例: 当我们的列很少时,可以管理。但我们还必须处理超过 150 列的表,当我尝试为我的选择投影列表查询仅 72 列时。每列都需要包含双引号。在编辑器中编写查询需要更多时间。

此外,当 talend ETL 工具输出数据时,它会自动在每个 DDL 的列周围用双引号创建表格。

任何帮助将不胜感激?

0 投票
1 回答
430 浏览

linux - Pivotal greenplum - talend 的 gpload 问题

当我尝试从 talend etl 服务器运行 gpload 进程时,我需要先配置 tgreenpluGPload 组件。在对组件进行配置时,它正在寻找远程 Greenplum 服务器文件,而不是基于本地 Windows 的 talend ETL 文件。

ENV 详细信息

Talend server 基于-windows server 2012

Greenplum Cluster 基于 - centos 7

主要原因: Greenplum 数据库服务器(Linux)对 ETL talend 服务器(窗口)是远程的。因此,当我从窗口服务器运行作业时,greenplum db 服务器对它来说是远程的。另外,我无法配置组件 tgreenplumGPload。

屏幕截图 tgreenplumGPload 设置:

基本设定

高级设置

更多细节: 1) gpfdist 程序在 Greenplum 主控主机上运行。

2) 从 gpdb 命令行检查合并操作 - 以下进程正在 greenplum 服务器中运行。

Q1: 如何在 Linux 上设置一个共享文件夹供 Windows 访问。这样,我们可以在 tgreenplumGPload 设置中使用。或者有没有其他方法可以做到这一点。

任何帮助将非常感激 !

0 投票
1 回答
220 浏览

greenplum - Pivotal Greenplum - 增量数据问题

当我尝试在一个 SQL 事务中捕获增量负载时。更新不起作用。基本上,它会无限期地执行 90k 行。

输入 SQL 事务

更新语句未从psql实用程序执行。为什么它继续执行甚至不抛出错误。

此外,尝试检查目标文件上的活动锁定。不存在锁。

请考虑每列周围的双引号列和用 greenplum SQL 语法编写的 SQL 事务。

对此的任何帮助将不胜感激。

0 投票
0 回答
138 浏览

greenplum - Pivotal Greenplum - Windows 上的 gpload 问题

当我尝试从 Windows 服务器执行 gpload 程序时。由于错误而失败。

我得到的错误:

我们尝试了:

1) CHECKED 与 greenplum 数据库相关的环境变量。它在环境变量设置中定义。

2)执行名为“greenplum_loaders_path.bat”的批处理文件

YML 的内容:这是从 ETL 主机传递的

使用gpload.py -f gpload.yml 的命令

任何帮助将不胜感激?

0 投票
1 回答
319 浏览

python - 基于windows测试gpload时出错

当我尝试从基于 Windows 的 ETL 主机执行 gpload 时。

在 Windows 环境中使用 gpload 会产生以下错误:

我得到的错误:

gpload.py -f gpload.yml

0 投票
1 回答
817 浏览

hawq - 使用Apache HAWQ时外部表和内部表的区别?

我正在使用 HAWQ 处理基于列的文件。在阅读 Pivotal 文档时,他们建议用户应该使用gpfdist来读写可读的外部表,以便以并行方式快速处理数据。

我按照文档中的建议制作了一个表格,并通过 SQL 确认了我的数据,如下所示。

数据均匀分布在所有从节点上。

以前我的目标是创建表,从文件中读取数据并确定加载的数据分布良好。它是通过使用 gpfdist 的上述过程实现的。

但问题是外部表和内部表之间的区别。即使两种方法具有相同的功能,使用外部或内部表的原因是什么。

我发现一些用户在使用 HAWQ 或 Greenplume 数据库时遵循以下程序的一些博客。

我没有完全理解这种行为。最重要的是,我不知道为什么存在外部和内部表,并且应该使用 Apache Hawq 或 greenplume 数据库来处理数据。