7

我有一个正在分析的数据集。事实证明,它可以很容易地通过人口统计和社区数据来丰富,从而极大地改进分析结果。

为了做到这一点,我在进行分析之前加入了人口统计和社区数据。我需要从我的核心样本集中排除一些字段,所以我的联接看起来像这样:

select sampledata.c1, 
       sampledata.c2, 
       demographics.*, 
       community.* 
from sample data 
    join demographics using (zip) 
    join community using (fips)

这使我的分析引擎无法处理输出中的多个 zip 或 fips 列。我无法手动指定每个字段 - 扩充表最终会产生数百列。

我可以选择 *,但是我会从我的样本数据中获得我不想要的所有列。

如何在不复制字段的情况下加入我的扩充数据,同时仍然从我的示例表中选择我想要的列?

我的一个想法是,如果 postgres(我的数据库)可以完全限定输出中的每一列(如 sample.c1、人口统计.c1 等),我会对此非常满意。

4

1 回答 1

2

SQL 中没有列排除语法,只有列包含语法(通过所有列的 * 运算符,或显式列出列名)。

仅生成您想要的列的列表

但是,您可以使用模式表和数据库的一些内置函数生成具有数百个列名的 SQL 语句,减去您不想要的少数重复列。

SELECT
    'SELECT sampledata.c1, sampledata.c2, ' || ARRAY_TO_STRING(ARRAY(
        SELECT 'demographics' || '.' || column_name
        FROM information_schema.columns
        WHERE table_name = 'demographics' 
        AND column_name NOT IN ('zip')
        UNION ALL
        SELECT 'community' || '.' || column_name
        FROM information_schema.columns
        WHERE table_name = 'community' 
        AND column_name NOT IN ('fips')
    ), ',') || ' FROM sampledata JOIN demographics USING (zip) JOIN community USING (fips)'
AS statement

这只会打印出语句,不会执行它。然后你只需复制结果并运行它。

如果您想一次性动态生成和运行语句,那么您可以阅读PostgreSQL 文档中的如何运行动态 SQL 。

在列名前加上表名

或者,这会生成一个包含所有列的选择列表,包括具有重复数据的列,然后将它们别名为包括每列的表名。

SELECT
    'SELECT ' || ARRAY_TO_STRING(ARRAY(
        SELECT table_name || '.' || column_name || ' AS ' || table_name || '_' || column_name
        FROM information_schema.columns
        WHERE table_name in ('sampledata', 'demographics', 'community')
    ), ',') || ' FROM sampledata JOIN demographics USING (zip) JOIN community USING (fips)'
AS statement

同样,这只会生成语句。如果你想动态生成和运行语句,那么你需要为你的数据库复习动态 SQL 执行,否则只需复制并运行结果。

如果您真的想在列别名中使用点分隔符,那么您必须使用双引号别名,例如SELECT table_name || '.' || column_name || ' AS "' || table_name || '.' || column_name || '"'. 但是,双引号别名可能会导致额外的复杂性(区分大小写等);因此,我使用下划线字符将表名与别名中的列名分开,然后可以将别名视为常规列名。

于 2013-02-25T08:36:51.853 回答