0

鉴于我有一个数据仓库,其中包含从各种来源创建的各种表,其中许多表是由 dbt 创建的,我想衡量一个概念,如“dbt 表覆盖率”,我将其定义为:

dtc = count(tables and views that exist) / count(non ephemeral models and sources)

这对于保持质量/完整性感非常有用,尤其是在过渡项目期间。是否有类似的 dbt 命令:

dbt report table-coverage --schemas=['reporting','example']
>>> 96% coverage, 48/50 tables in the schemas provided are captured in dbt. 

如果没有,我们如何将其添加到项目中?!

我可以采取哪些替代方法来解决问题

4

3 回答 3

2

为此,我可能会创建一个模型(视图)来查询 information_schema 并对 to 的 1 对 1 映射做出一些假设{sourceTableName}stg_{sourceTableName}假设这意味着您的覆盖范围)。

此外,我会考虑使用graph.sources.values()JINJA 函数来遍历项目中的所有文档源,然后将其与中的每个模型进行比较{target.schema}

https://docs.getdbt.com/reference/dbt-jinja-functions/graph#accessing-sources

如果您将 的存在source.schema.ymlsource.information_schema. 我将更改方法以考虑将图中的每个项目与源数据库上 information_schema 中的项目总数进行映射。

于 2020-09-17T19:46:43.303 回答
1

这里有几个想法,因为这对我目前的情况也很有趣:

  1. dbt 不提供查询输出或将结果返回到命令行。(据我所知!)因此,如果此时有 1 个本质上不受支持的功能。即dbt reportdbt query尚不存在。如果需要,我建议在这里构建一个功能请求: https ://github.com/fishtown-analytics/dbt/issues

  2. 如果您可以在 dbt 中制作模型,然后通过您选择的客户端执行该模型,那么让我们试一试。(我正在使用 postgres 所以相应地转换)

    WITH schema_map as
       (select schemaname as schema,
        tablename as name,
        'Table' as Type,
        CASE WHEN schemaname like '%dbt%' THEN 1
         ELSE 0 END as dbt_created
        from pg_tables
    WHERE NOT schemaname = ANY('{information_schema,pg_catalog}')
    UNION
    select schemaname as schema,
        viewname as name,
        'View' as Type,
        CASE WHEN schemaname like '%dbt%' THEN 1
             ELSE 0 END as dbt_created
        from pg_views
     WHERE NOT schemaname = ANY('{information_schema,pg_catalog}') )
     SELECT count(name) as total_tables_and_views,
        sum(dbt_created) as dbt_created,
        to_char((sum(dbt_created)::dec/count(name)::dec)*100,'999D99%') as dbt_coverage
     FROM schema_map
    

给出结果:

total_tables_and_views | dbt_created | dbt_coverage
391                    |292          |  74.68%
于 2020-09-18T15:48:58.067 回答
0

只是为了回馈社区,感谢 Jordan 和 Gscott 的启发。我为 SQL Server/ Synapse 执行的解决方案是:

  1. 每日执行 INFORMATION_SCHEMA.TABLES 和 dbt 图中的模型计数作为一个表。
  2. 一个基于 1 的增量表,用于选择感兴趣的模式和聚合。在我下面的例子中,我过滤掉了分期和测试。

DbtModelCounts:


{% set models = [] -%}

{% if execute %}
  {% for node in graph.nodes.values()
    | selectattr("resource_type", "equalto", "model")
    %}
        {%- do models.append(node.name) -%}

  {% endfor %}
{% endif %}

with tables AS
(
SELECT table_catalog [db], table_schema [schema_name], table_name [name], table_type [type]
FROM INFORMATION_SCHEMA.TABLES
),
dbt_tables AS
(
SELECT *
FROM tables
WHERE name in (
    {%- for model in models %}
    ('{{ model}}') 
    {% if not loop.last %},
    {% endif %}
    {% endfor %}
    )
)
SELECT
    tables.db, 
    tables.schema_name,
    tables.type,
    COUNT(tables.name) ModelCount,
    COUNT(dbt_tables.name) DbtModelCount
FROM tables
LEFT JOIN dbt_tables ON
    tables.name=dbt_tables.name AND
    tables.schema_name = dbt_tables.schema_name AND
    tables.db = dbt_tables.db AND 
    tables.type = dbt_tables.type
GROUP BY
    tables.db,
    tables.schema_name,
    tables.type

数据库覆盖率:

{{
  config(
    materialized='incremental',
    unique_key='DateCreated'
  )
}}
SELECT 
    CAST(GETDATE() AS DATE) AS DateCreated,
    GETDATE() AS DateTimeCreatedUTC,
    SUM(DbtModelCount) AS DbtModelCount, 
    SUM(ModelCount) AS TotalModels,
    SUM(DbtModelCount)*100.0/SUM(ModelCount) as DbtCoveragePercentage
FROM {{ref('DbtModelCounts')}}
WHERE schema_name NOT LIKE 'testing%' AND schema_name NOT LIKE 'staging%'

为此,为已定义的源添加逻辑,以计算映射到我的暂存或原始模式表的源的百分比。

于 2020-10-26T13:57:50.693 回答