问题标签 [datamart]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
733 浏览

sql - 如何在缓慢变化的维度和事实中跟踪合并

在 2 个或 3 个或更多维度合并以形成新维度的数据集市中。如何管理 scd 以跟踪历史上的所有合并并呈现与这些维度相关的趋势事实?

一个具体的例子是三个商店(业务 ID 8897、8965、9135)合并以创建一个新的商店业务 ID 9700。如何从事实表中获取历史销售数据以显示直到给定日期 8897、8965 和 9135是单独的商店,现在都是新的商店 9700。

此外,如果新店的营业编号不是 9700,但新店采用以前的商店营业 ID 之一怎么办。因此,新的合并商店业务 ID 不是 9700,而是 8897。

SurrogateKey -------- StoreBusinessID---------- StoreName
=============== ============== ===== ===================

=================================================== ==

0 投票
2 回答
1622 浏览

data-modeling - 社交媒体的星型模式设计

我是维度建模的新手,并且已经阅读了很多材料(星型模式、维度/事实表、SCD、Ralph Kimball 的 - The Data Warehouse Toolkit book 等)。所以我对维度建模结构有很好的概念理解,但由于缺乏经验并且需要一些指导,我发现很难将其应用于用例。

以 Twitter 为例,我想设计一个维度模型来计算 -

  1. DAU(每日活跃用户)= 在给定日期通过网站或移动应用程序登录和访问 Twitter 的用户数
  2. MAU(月活跃用户数)=过去 30 天内通过网站或移动应用程序登录并访问 twitter 的用户数,包括测量日期
  3. 推文上的用户参与度 = 总计(点击次数 + 收藏次数 + 回复次数 + 转发次数)

一段时间内(如一个月)的这些指标是该期间每一天的这些指标的总和。

我想编写 SQL 来按地区(例如:美国和世界其他地区)计算每个季度的这些指标,并计算这些指标的同比增长(或下降)。
例如:在此处输入图像描述

以下是我想到的一些细节-

用户登录活动的无事实(事务)事实表,每个用户每次登录的粒度为 1 行:user_login_fact_schema (user_dim_key, date_dim_key, user_location_dim_key, access_method_dim_key)

用户活动的无事实(事务)事实表,每个用户每个活动的粒度为 1 行:user_activity_fact_schema(user_dim_key、date_dim_key、user_location_dim_key、access_method_dim_key、post_key、activity_type_key)

这听起来正确吗?我的模型应该是什么样子?我可以在这里添加哪些其他维度/事实?

想知道我是否应该将这 2 个表折叠为 1 个并将登录的活动类型设置为“登录”,但是可能有大量登录没有任何活动,因此这会扭曲数据。我还缺少什么吗?

0 投票
0 回答
222 浏览

sql-server - SSIS 试图将 varchar(50) 转换为从 PSA 浮动到 ODS 数据库

这是我们的 PSA 数据库中的一个表格,来自一个平面文件。 我们学校给我们的数据库表

这是平面文件: 平面文件

我们试图用来自 PSA 数据库的数据填充我们的 ODS 数据库。这是我们 ODS 数据库中容器表的设计: 赔率

我们在 Visual Studio sql server 数据工具中使用数据转换,如下所示: ssdt

这是数据转换的样子: 数据转换

我们得到的错误是这样的:

0 投票
1 回答
152 浏览

business-intelligence - 数据集市建模事实表:列或行中的指标,其中一列称为指标

我正在为数据集市建模,并且有多个度量(指标)和维度。

对事实表进行建模以按列制作指标或让一列包含指标(例如创建指标维度)会更好吗?

请给我您的意见以及何时选择每个选项?

0 投票
0 回答
63 浏览

olap - 使用 spagobimeta 创建数据集市

我正在尝试用 Spago BI 制作一个 olap 立方体。

在 SpagoBI Meta 中创建维度表和事实表后,我启动了获取数据集市的执行。

不幸的是我收到了这个错误:

在此处输入图像描述

我应该怎么做才能解决这个问题?

在此处输入图像描述

0 投票
3 回答
424 浏览

schema - 雪花云数据仓库上的多个数据集市架构/建模

语境 :

假设我们有多个数据集市(例如:人力资源、会计、营销……),并且它们都使用星型模式作为维度建模(Kimball 方法)。

问题 :

由于雪花云数据仓库架构消除了分离单独的物理数据集市/数据库以保持性能的需要。那么,在 Snowflake 上构建多个数据集市的最佳方法是什么?

为每个数据集市创建数据库?创建一个具有多个架构的数据库(EDW),每个架构都引用一个数据集市?

谢谢 !

0 投票
2 回答
203 浏览

database - 使用常规数据库作为数据仓库

谁能告诉我尝试将常规数据库用作数据仓库时会产生什么影响?

我知道数据仓库以更结构化的方式存储数据而闻名,但是使用标准数据库来实现相同结果的含义是什么?我们是否可以不只是创建一个包含结构化数据的常规数据库表,因为它会驻留在数据仓库中?

0 投票
1 回答
46 浏览

ssas - 仓库设计:跟踪没有事件

我跟踪课程的出勤率。有用户维度、课程维度和事实表。

我需要跟踪用户是否参加过课程以及他们是否参加过课程。

我正在考虑在事实表中存储每个用户和课程的记录,如果他们参加了,则记录一个,如果他们没有参加,则记录一个。

我应该存储未出席记录还是应该没有记录表明未出席?

0 投票
1 回答
51 浏览

analytics - 使用 GitHub 信息创建数据集市

我想创建一个包含 GitHub 信息的数据集市,其中包含提交、拉取请求、还原等。

GitHub 为这些事件提供了许多 webhook。我正在尝试创建一个体系结构来处理这些事件并将其加载到 RDS 数据库中。

我正在考虑使用 API Gateway + Kinesis Firehose 将事件转储到 S3。然后使用 cron(如https://airflow.apache.org/)来处理这些文件。

缺点和优点:

(+) 它是可靠的,因为我们有一个简单的 API 网关 + Kineses 转储到 S3。

(+) 因为我使用 Airflow,所以很容易重新处理

(-) 似乎有点过度架构

(-) 它不是实时数据集市。

你们可以思考并提出另一种具有优点和缺点的架构吗?

0 投票
1 回答
4500 浏览

data-modeling - 无事实事实和事实表有什么区别?

无事实事实和事实表之间的确切区别是什么?我仔细阅读了几篇文章,但它们并不令人信服