问题标签 [datamart]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
349 浏览

sql-server - 什么是 ElasticSearch 中好的 Web 应用程序 SQL Server 数据集市实现?

来自 RDBMS 背景,并试图围绕 ElasticSearch 数据存储模式展开我的头脑......

目前在 SQL Server 中,我们有一个星型模式数据集市,RecordData. 行按用户 ID、与其余可搜索记录有关的地理位置、标题和描述(它们是自由文本搜索字段)来组织。

我想将其移至 ElasticSearch,并已阅读有关为每个用户创建单独索引的信息。如果我理解正确,根据这个建议,我会RecordData在每个用户索引中创建一个类型,对吗?对于Kibana分析而言,用户索引的推荐命名约定是什么?

我对此建议的一个问题是,您将如何在 ES 服务器上组织多个 Web 应用程序?您不想到处都有所有这些用户索引吗?

每个应用程序有一个索引,每个 SQL Server 表都有一个类型是不是很糟糕?

由于在 SQL Server 中,我们有其他用于用户配置的表,基于用户 ID,我认为我可以在用户索引中创建新的 ES 类型进行配置。这是推荐的模式吗?我宁愿这个 Web 应用程序没有两个数据库系统。

欢迎提出建议,谢谢。

0 投票
2 回答
2787 浏览

ssas - 数据仓库和类型 2 SCD 和/或每日快照事实表

我很难决定哪个更适合我的场景。这个场景涉及的维度是

  1. 员工维度

    /li>
  2. 部门维度

    /li>
  3. 员工资料表(每天)

  4. 部门情况表(每天)

我的问题

  1. 知道部门维度包含活动的 700 万条记录和部门维度包含活动的 500,000 条记录,实现每日快照事实表的正确和最充分的方法是什么。

  2. 每天填充事实员工和事实部门并每天重复记录是否足够?

我正在使用 SQL Server 2014 数据库并希望使用 OLAP

0 投票
1 回答
2732 浏览

data-warehouse - 100 个事实的事实表设计指南

我正在尝试为医疗保健应用程序创建一个数据集市。数据集市中的事实基本上是与心脏相关的测量和发现,我们有 100 多个。从 1000 起,每个考试类型可以达到 20000 人。

我想知道我对事实表的设计选择是:

谷物:每种检查类型每位患者 1 行。

我能想到的一些选择——

1) 一个包含 1000 列或更多列的大而宽的事实表。

2) 基于 EAV 的设计 - 单独的 Measure 维度表。该外键将进入事实表,度量值将在事实表中。因此,事实表的粒度将更改为每个患者每个检查类型每次测量 1 行。

3)根据其他一些标准(如子组)为每种考试类型创建更小的多个事实表。但最终用户将跨子组查询该考试类型,不推荐使用事实连接。

4)还有其他想法吗?

任何输入将不胜感激。

0 投票
2 回答
244 浏览

oracle - Oracle - 删除维度表中的一行很慢

我有一个带有 5 个维度表和一个事实表的数据集市。我正在尝试清理一个只有几行(4000 行)的维度表。但是,事实表有数百万行(25GB)(索引和分区)。

当我尝试删除表维度中的一行时,该过程变得非常缓慢。尽管与事实表中的行没有关系(级联删除),但它仍然很慢。

有没有办法优化这个?提前致谢。

0 投票
0 回答
53 浏览

sql - 10 亿行 DW 到 DM

我有一个设计/性能问题。

我有这张下一张桌子。

2015 年的同一张表...... 2010 年。

每个表大约有 1.5 亿行。因此,加起来我们谈论的是 10.5 亿行。

我收到了一个要求,BI 人员希望将其组合在一个视图上(像 select * from all_visits 一样疯狂)。

幸运的是,他们给了我一些 'where' 子句和一些他们不需要的列,所以最终结果将是 6 列和 20% 的行(2.1 亿行),但尽管如此,'view' 只是一个存储的询问。即使盒子有 60GB 的内存,它也与许多其他数据库共享。

我看到的选项:

  1. 而不是视图...将视图创建为表格并将它们移动到专用框。
  2. 每年创建一个视图?
  3. 将所有这些切换到 mongodb 或 vertica 之类的东西?!
  4. 任何先前的选项与列存储索引相结合?
0 投票
2 回答
769 浏览

sql - 如果数据集市有两种不同的粒度,如何解决?

我们正在从给定的数据源创建数据集市。我在数据集市中创建了以下表格。

所以如果我想做分析人口和会议县有不同的粒度。我想按年和按月进行分析。有没有办法将两个事实表组合成一个或任何建议?

0 投票
1 回答
43 浏览

etl - 数据集市的完整加载策略是否有任何缺点......?

...除了性能影响?

在我们的情况下,数据量将是可监督的,复杂性可能不会。

背景:
我经历了一个项目,其中数据集市每天都被完全加载。这简化了 ETL,因为不需要进行增量处理。出于同样的原因,性能也是可以接受的。但是,我不确定这种情况是否始终可用,是否存在不利因素,例如当最终用户告诉我们数据自 4 天以来“错误”时 - 很难追溯。

感谢您的输入

0 投票
1 回答
495 浏览

data-warehouse - Inmon 数据集市与 Kimball 数据集市

是 kimball 和 inmon 的唯一区别,企业层 (EDW)。我四处搜索,发现 inmon 也使用 EDW 创建数据集市。那么这是否意味着,对于给定的业务流程和源系统,这两个数据集市的结构相似?

一旦数据集市可用于这两个过程,它们是否提供相同的性能?

如果我错了,请纠正我,首先创建数据仓库,然后在其之上创建维度模型以满足特定的业务需求。(ER模型到维度模型)

我无法找到有关如何在 inmon 模型中创建数据集市的信息。我希望你们中的一些人可以帮助我。

0 投票
1 回答
706 浏览

sql-server - 加载时间维度表t-sql

我正在尝试(综合地)在星形模型数据集市中填充一个空的时间维度表,之后它应该如下所示:

在此处输入图像描述

我为此使用以下 T-SQL 代码:

然而,它不会加载。我收到的消息是:

消息 1:

字符串或二进制数据将被截断

和消息 2:

[执行 SQL 任务] 错误:执行查询“/* STEP 3 Populate DIM_TIJD table with date and it...”失败,出现以下错误:“语句已终止。”。可能的失败原因:查询有问题,“ResultSet”属性设置不正确,参数设置不正确,或连接未正确建立。”

我究竟做错了什么?SSMS 中没有下划线表示代码有问题,我检查了表和代码的所有 varchar 长度是否相同。我试过摆弄结果集设置,但这只会给我另一条消息:

消息 3:

[执行 SQL 任务] 错误:为 ResultSetType 返回的结果绑定数无效:“ResultSetType_SingleRow”。

先感谢您!

0 投票
1 回答
851 浏览

amazon-web-services - 将 DynamoDB 数据加载到 Redshift 的步骤?

我想知道我们如何将数据从 DynamoDB 加载到 Redshift。

根据文档,DynamoDB 是 NoSQL,Redshift 是 RDBMS。

那么如何以标准化的方式处理非结构化数据呢?

我什么时候需要规范化数据?

我想知道 Redshift 是否保留完整数据或转换后的数据。

我想知道加载增量数据的最佳方式。

谁能建议这个过程的步骤?