问题标签 [greenplum]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
copy - 将 Green Plum COPY 错误重定向到文件
Green Plum 中的 COPY 命令,可以将错误记录到错误表中。有什么方法可以将这些错误记录在文件中。
谢谢 Ganesh.R
distribution - 细分之间的Greenplum数据分布
我有一个 Greenplum 数据库,其中有 10 个段,反映了 10 个硬盘。我的表根据日期分为主分区和基于哈希ID的辅助分区。所以一个月会有30个主分区,每个分区包含100个子分区。并且子分区中的数据是基于 hashid 加载的。现在的问题是这些分区是如何在段之间分布的。
猜想一:
或者
猜猜 2
这是如何运作的?猜测 1 或 2,如果两者都错了,请告诉我它在分段级别的分布方式。
根据哈希 id 对它进行子分区是一个好的设计吗?因为我每天要处理 600 万条记录,而且我必须存储一年的日期,所以我希望搜索能够找到非常少的数据。换句话说,我将根据键查询确定哈希值范围,并将在这些特定分区中进行搜索。
谢谢 Ganesh.R
performance - 关于在 Ramdisk 上运行 greenplum 的文章
我在哪里可以找到关于在 Ramdisk 上运行 Greenplum 的好文章?有很多与在 Ramdisk 中运行 postgres 相关的文章,但我找不到 Greenplum。有人可以帮忙吗?
postgresql - Greenplum (PostgreSQL) 的 SAS/ACCESS 和客户端编码
我试图找到一种方法来指示 ODBC 驱动程序 - Datadirect ODBC 使用 win1251 进行客户端会话。
用户指南中提到的方法有:
- 在 psql 中使用 \encoding 命令,它允许您即时更改客户端编码。
- 使用 SET client_encoding TO: => SET CLIENT_ENCODING TO 'value';
- 使用 PGCLIENTENCODING 环境变量。
- 在 postgresql.conf 文件中设置配置参数 client_encoding
但据我了解选项 1 和 3 不适合 ODBC 驱动程序,选项 2 我也无法使用 - 因为我使用 SAS 并且这个引擎不允许我执行手动编辑的 SQL - 它使用了很多自动代码生成。
我已经在 postgresql.conf 文件中尝试了选项 client_encoding,而且我已经厌倦了在 psql 管理会话中执行 follow clommand:alter user sasuser SET client_encoding to WIN1251;
但没有任何变化 - 默认情况下客户端编码仍然是UTF8
......
目前在 Datadirect ODBC.ini 文件中,我有以下字符串:
有人可以帮我吗?
hadoop - 为什么 Vertica/InfoBright/GreenPlum 等面向列的数据库会在 Hadoop 上做文章?
为 Hadoop 集群提供数据并使用该集群将数据输入 Vertica/InfoBright 数据仓库有什么意义?
所有这些供应商都在说“我们可以连接 Hadoop”,但我不明白这有什么意义。存储在 Hadoop 中并转移到 InfoBright 有什么好处?为什么不将应用程序直接存储在 Infobright/Vertica DW 中?
谢谢 !
database - greenplum 分区优化
在 greenplum 上,我有一个名为的大表fact_table
,它由RANGE(day_bucket)
. 为什么以下查询这么慢:
我想它应该只查看每个分区的头部并立即返回结果,因为同一day_bucket
列的每个分区。但是 greenplum 进行了一次 FULL 扫描来计算结果。任何人都可以向我解释原因吗?
更新:
感谢您回答我的问题,但这对您的提示没有帮助。Greenplum 总是进行全面扫描,即使我使用 PARTITION BY LIST(day_bucket) 创建表:
解释命令显示它总是进行全扫描:
-> mytestlist_1_prt_p20120102 mytestlist 上的仅追加列扫描(成本=0.00..34.95 行=1 宽度=8)过滤器:day_bucket >= '2012-01-02 00:00:00'::timestamp without time zone AND day_bucket Append -mytestlist_1_prt_p20120103 mytestlist 上的仅列扫描(成本=0.00..39.61 行=1 宽度=8)过滤器:day_bucket >= '2012-01-02 00:00:00'::timestamp without time zone AND day_bucketsql - How to use a SQL window function to calculate a percentage of an aggregate
I need to calculate percentages of various dimensions in a table. I'd like to simplify things by using window functions to calculate the denominator, however I am having an issue because the numerator has to be an aggregate as well.
As a simple example, take the following table:
If I just want to calculate the share of each individual row out of d1, then windowing functions work fine:
However, what I need to do is calculate the overall share for the sum of d2 out of d1. The output I am looking for is this:
So I try this:
However, now I get an error:
I'm assuming this is because it is complaining that the window function is not accounted for in the grouping clause, however windowing functions cannot be put in the grouping clause anyway.
This is using Greenplum 4.1, which is a fork of Postgresql 8.4 and shares the same windowing functions. Note that Greenplum cannot do correlated subqueries.
mongodb - 与 MongoDB 或 Cassandra 相比,Greenplum 或 Vertica 等数据库的优势
我目前分别在MongoDB和Apache Cassandra的几个项目中工作。我也经常使用 Solr,我正在用它们处理“大量”数据(大约 1-2TB)。上周我第一次听说了Greenplum和Vertica,但我不太确定将它们放在我脑海中的哪个位置。在我看来,它们就像 Dataware House (DWH) 解决方案,而我并没有真正使用过 DWH。而且它们似乎要花费很多钱(例如,Greenplum 中的 1TB 存储需要 6 万美元)。我目前没有处理 PB 的数据并且我认为不会这样做,但是像 cassandra 这样的产品似乎也能够处理这个
在轻松扩展到 TB 或 PB 数据方面,Cassandra 是公认的 NoSQL 领导者。
所以我的问题是:人们为什么要使用 Greenplum & Co?与这些其他产品相比,是否有巨大的优势?
谢谢。
greenplum - 社区版上的外部表 GPFDIST 文件主机
我正在尝试从我的 Greenplum 社区版 VM 的 *.csv 文件中加载数据;但是,我在创建外部表时遇到问题。
这会在无法翻译主机名的情况下不断给出错误...我已经尝试过使用 localhost 和其他人,但似乎仍然没有任何效果。
database - 用于财务分析的数据存储
我正在构建系统来分析有关证券交易价格的大量财务数据。鉴于数据将达到 10 兆兆字节,因此其中的一个大挑战是确定对数据使用哪种存储方法。将有许多对数据的查询,例如取平均值、计算标准差以及按价格、时间、交易量等多列过滤的总和。联接语句不是必需的,但如果有就好了。
现在,出于评估目的,我正在查看 infobright 社区版、monetdb 和 greenplum 社区版。到目前为止,它们看起来很棒,但对于更高级的功能,其中一些版本不提供其中的一些功能(使用多个服务器、插入/更新语句等)。
对于这种情况,您会使用什么解决方案,以及它比替代方案提供的好处?具有成本效益是一大优势。如果我必须为数据仓库解决方案付费,我会,但我宁愿避免它,如果可能的话,采用开源/社区版本的路线。