问题标签 [datamart]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - 如何在缓慢变化的维度和事实中跟踪合并
在 2 个或 3 个或更多维度合并以形成新维度的数据集市中。如何管理 scd 以跟踪历史上的所有合并并呈现与这些维度相关的趋势事实?
一个具体的例子是三个商店(业务 ID 8897、8965、9135)合并以创建一个新的商店业务 ID 9700。如何从事实表中获取历史销售数据以显示直到给定日期 8897、8965 和 9135是单独的商店,现在都是新的商店 9700。
此外,如果新店的营业编号不是 9700,但新店采用以前的商店营业 ID 之一怎么办。因此,新的合并商店业务 ID 不是 9700,而是 8897。
SurrogateKey -------- StoreBusinessID---------- StoreName
=============== ============== ===== ===================
=================================================== ==
data-modeling - 社交媒体的星型模式设计
我是维度建模的新手,并且已经阅读了很多材料(星型模式、维度/事实表、SCD、Ralph Kimball 的 - The Data Warehouse Toolkit book 等)。所以我对维度建模结构有很好的概念理解,但由于缺乏经验并且需要一些指导,我发现很难将其应用于用例。
以 Twitter 为例,我想设计一个维度模型来计算 -
- DAU(每日活跃用户)= 在给定日期通过网站或移动应用程序登录和访问 Twitter 的用户数
- MAU(月活跃用户数)=过去 30 天内通过网站或移动应用程序登录并访问 twitter 的用户数,包括测量日期
- 推文上的用户参与度 = 总计(点击次数 + 收藏次数 + 回复次数 + 转发次数)
一段时间内(如一个月)的这些指标是该期间每一天的这些指标的总和。
我想编写 SQL 来按地区(例如:美国和世界其他地区)计算每个季度的这些指标,并计算这些指标的同比增长(或下降)。
例如:
以下是我想到的一些细节-
用户登录活动的无事实(事务)事实表,每个用户每次登录的粒度为 1 行:user_login_fact_schema (user_dim_key, date_dim_key, user_location_dim_key, access_method_dim_key)
用户活动的无事实(事务)事实表,每个用户每个活动的粒度为 1 行:user_activity_fact_schema(user_dim_key、date_dim_key、user_location_dim_key、access_method_dim_key、post_key、activity_type_key)
这听起来正确吗?我的模型应该是什么样子?我可以在这里添加哪些其他维度/事实?
想知道我是否应该将这 2 个表折叠为 1 个并将登录的活动类型设置为“登录”,但是可能有大量登录没有任何活动,因此这会扭曲数据。我还缺少什么吗?
business-intelligence - 数据集市建模事实表:列或行中的指标,其中一列称为指标
我正在为数据集市建模,并且有多个度量(指标)和维度。
对事实表进行建模以按列制作指标或让一列包含指标(例如创建指标维度)会更好吗?
请给我您的意见以及何时选择每个选项?
olap - 使用 spagobimeta 创建数据集市
我正在尝试用 Spago BI 制作一个 olap 立方体。
在 SpagoBI Meta 中创建维度表和事实表后,我启动了获取数据集市的执行。
不幸的是我收到了这个错误:
我应该怎么做才能解决这个问题?
schema - 雪花云数据仓库上的多个数据集市架构/建模
语境 :
假设我们有多个数据集市(例如:人力资源、会计、营销……),并且它们都使用星型模式作为维度建模(Kimball 方法)。
问题 :
由于雪花云数据仓库架构消除了分离单独的物理数据集市/数据库以保持性能的需要。那么,在 Snowflake 上构建多个数据集市的最佳方法是什么?
为每个数据集市创建数据库?创建一个具有多个架构的数据库(EDW),每个架构都引用一个数据集市?
谢谢 !
database - 使用常规数据库作为数据仓库
谁能告诉我尝试将常规数据库用作数据仓库时会产生什么影响?
我知道数据仓库以更结构化的方式存储数据而闻名,但是使用标准数据库来实现相同结果的含义是什么?我们是否可以不只是创建一个包含结构化数据的常规数据库表,因为它会驻留在数据仓库中?
ssas - 仓库设计:跟踪没有事件
我跟踪课程的出勤率。有用户维度、课程维度和事实表。
我需要跟踪用户是否参加过课程以及他们是否参加过课程。
我正在考虑在事实表中存储每个用户和课程的记录,如果他们参加了,则记录一个,如果他们没有参加,则记录一个。
我应该存储未出席记录还是应该没有记录表明未出席?
analytics - 使用 GitHub 信息创建数据集市
我想创建一个包含 GitHub 信息的数据集市,其中包含提交、拉取请求、还原等。
GitHub 为这些事件提供了许多 webhook。我正在尝试创建一个体系结构来处理这些事件并将其加载到 RDS 数据库中。
我正在考虑使用 API Gateway + Kinesis Firehose 将事件转储到 S3。然后使用 cron(如https://airflow.apache.org/)来处理这些文件。
缺点和优点:
(+) 它是可靠的,因为我们有一个简单的 API 网关 + Kineses 转储到 S3。
(+) 因为我使用 Airflow,所以很容易重新处理
(-) 似乎有点过度架构
(-) 它不是实时数据集市。
你们可以思考并提出另一种具有优点和缺点的架构吗?
data-modeling - 无事实事实和事实表有什么区别?
无事实事实和事实表之间的确切区别是什么?我仔细阅读了几篇文章,但它们并不令人信服