问题标签 [hawq]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hawq - 我在哪里可以找到使用 Apache HAWQ 的从站上分布式文件的位置?
我正在使用 Apache HAWQ 并尝试处理一些数据。我有一个主节点和两个 hawq 从节点。
我制作了表格,插入了数据并识别了我使用 postgreSQL 插入的数据。我认为数据主要分布在奴隶上。
执行下面的命令时,出现了多个gp_segment_id,给人一种使用多个slave的印象。
现在,我真的很想看到我的数据分布在从节点上。但是,尽管我搜索了一些博客,但我不知道该怎么做。我找到了这个https://discuss.pivotal.io/hc/en-us/articles/204072646-Pivotal-HAWQ-find-data-files-for-specific-tables,并按照如下所示的命令进行操作。
执行SELECT * FROM pg_filespace_entry WHERE fselocation LIKE '%gpseg0';
语句时,但空表返回给我,让我有点困惑。
我想要做的是查明分布式数据在从节点上的位置。但是,查询语句 ( select gp_segment_id, count(*) from retail_demo.order_lineitems_hawq GROUP BY gp_segment_id;
) 不足以让我识别分布式数据的位置。
还有,我在哪里可以指定 gp 段的数量?每当运行查询时,gp_segments 的数量取决于输入数据大小的数量。
总而言之,我的问题如下:
1)我在哪里可以找到从节点上hdfs上分布式数据的位置?如果不是,我怎么能相信我的数据分布良好?
2)有没有办法指定段数?如果无论输入数据大小如何,段数都是固定的,对我来说理解 HAWQ 系统会更好。
任何帮助将不胜感激:D
hadoop - 错误:类型字符的值太长(50)
我在 HDFS 中创建了外部表,在 HAWQ 中创建了内部表。我正在从 SQL Server 获取数据,使用 talend 进行 etl 进程 流程就像 SQLSERVER -> EXTERNAL TABLE(PXF HAWQ) -> INTERNAL TABLE(HAWQ)
在运行作业时,我遇到了错误
ERROR: value too long for type character(50) (seg0 slice1 phds01.aa.com:40000 pid=297176)
Detail: External table podetails_stg0, line 17 of pxf://PHD-HA/test/PoDetails_stg0.csv?profile=HdfsTextSimple, column StockDes
我应该如何解决这个错误?
greenplum - 在 Greenplum 上使用 madlib 库执行 kmean 时出错
我正在尝试kmean
使用库运行算法madlib
,使用的工具 aginity 尝试执行:
我的表名是sample_sordetail
。
我收到错误消息:
错误:XX000:plpy.Error:kmeans错误:数据表不存在!(plpython.c:4648)
请建议如何解决此问题。
hawq - 在集群之间复制 HAWQ 数据
我有一个要求,我需要每天将生产 HAWQ 数据库刷新到 QA 环境。
如何将每天的增量从生产转移到 QA 集群。
感谢你的帮助
谢谢维鲁
hawq - Apache Hawq 中的虚拟段内存/核心分配
我正在尝试在会话级别调整以下 Hawq 配置以进行查询-
Hawq 在 Yarn 资源管理器上运行
运行我的查询时,我看到只有 30 个容器正在启动。不应该是 40 个容器(每个虚拟段 1 个核心)吗?请帮助我了解如何分配虚拟段内存或内核?
sql-server - Greenplum - 如何处理死锁
当尝试从 Greenplum 运行 SQL 事务时。收到此错误。
我们尝试了 :
在 SQL 服务器上它正在工作但我们想在 greenplum 上编写相同的事务
输出 :
这包括
使用 greenplum 语法转换提到的 sql 事务(重试和 try/catch)块。
随着进程 ID 不断变化,在传递到事务时要避免硬编码值。
3.另外,我试图理解这个错误属于我们用greenplum编写的SQL SERVER OR transaction。
talend中的数据流为:
任何帮助将不胜感激?
database-migration - 如何将 MSSQL 查询转换为 Postgres 查询
我必须迁移复杂的 SQL 查询需要在 Postgres 中转换。
复杂的 SQL 查询:超过 4 个表连接、大量过滤器、聚合函数、CASE when then 等。
例如:样本输入
请建议我们是否有任何自定义函数或工具来完成 DML 语句从 MSSQL 到 PSQL 的转换。
事实
这样,我必须解析 1600 个查询。因此,这项工作是重复性的。我必须每天执行或解析 MSSQL 查询。
任何帮助将不胜感激?
greenplum - Greenplum - 时间戳列上的更新语句失败
我们在greenplum数据库中有源表和目标表。我们正在使用 sql 脚本比较两个表。但是更新在这里不起作用。并且它不会相对于源表更新目标表的时间戳列。
输入 - 源/目标表结构
注意到这一点
但是发现这一点,在执行以下更新语句时,它不会引发任何错误。它说已成功更新所有行。但是当我在处理完成后检查目标时间戳列字段不等于源时间戳列字段时。
我们尝试了 :
输出
我们希望在完成上述 SQL 事务后匹配源列和目标列。
任何帮助将不胜感激?