问题标签 [datamart]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql-server - 什么是 ElasticSearch 中好的 Web 应用程序 SQL Server 数据集市实现?
来自 RDBMS 背景,并试图围绕 ElasticSearch 数据存储模式展开我的头脑......
目前在 SQL Server 中,我们有一个星型模式数据集市,RecordData
. 行按用户 ID、与其余可搜索记录有关的地理位置、标题和描述(它们是自由文本搜索字段)来组织。
我想将其移至 ElasticSearch,并已阅读有关为每个用户创建单独索引的信息。如果我理解正确,根据这个建议,我会RecordData
在每个用户索引中创建一个类型,对吗?对于Kibana分析而言,用户索引的推荐命名约定是什么?
我对此建议的一个问题是,您将如何在 ES 服务器上组织多个 Web 应用程序?您不想到处都有所有这些用户索引吗?
每个应用程序有一个索引,每个 SQL Server 表都有一个类型是不是很糟糕?
由于在 SQL Server 中,我们有其他用于用户配置的表,基于用户 ID,我认为我可以在用户索引中创建新的 ES 类型进行配置。这是推荐的模式吗?我宁愿这个 Web 应用程序没有两个数据库系统。
欢迎提出建议,谢谢。
ssas - 数据仓库和类型 2 SCD 和/或每日快照事实表
我很难决定哪个更适合我的场景。这个场景涉及的维度是
员工维度
/li>部门维度
/li>员工资料表(每天)
- 部门情况表(每天)
我的问题
知道部门维度包含活动的 700 万条记录和部门维度包含活动的 500,000 条记录,实现每日快照事实表的正确和最充分的方法是什么。
每天填充事实员工和事实部门并每天重复记录是否足够?
我正在使用 SQL Server 2014 数据库并希望使用 OLAP
data-warehouse - 100 个事实的事实表设计指南
我正在尝试为医疗保健应用程序创建一个数据集市。数据集市中的事实基本上是与心脏相关的测量和发现,我们有 100 多个。从 1000 起,每个考试类型可以达到 20000 人。
我想知道我对事实表的设计选择是:
谷物:每种检查类型每位患者 1 行。
我能想到的一些选择——
1) 一个包含 1000 列或更多列的大而宽的事实表。
2) 基于 EAV 的设计 - 单独的 Measure 维度表。该外键将进入事实表,度量值将在事实表中。因此,事实表的粒度将更改为每个患者每个检查类型每次测量 1 行。
3)根据其他一些标准(如子组)为每种考试类型创建更小的多个事实表。但最终用户将跨子组查询该考试类型,不推荐使用事实连接。
4)还有其他想法吗?
任何输入将不胜感激。
oracle - Oracle - 删除维度表中的一行很慢
我有一个带有 5 个维度表和一个事实表的数据集市。我正在尝试清理一个只有几行(4000 行)的维度表。但是,事实表有数百万行(25GB)(索引和分区)。
当我尝试删除表维度中的一行时,该过程变得非常缓慢。尽管与事实表中的行没有关系(级联删除),但它仍然很慢。
有没有办法优化这个?提前致谢。
sql - 10 亿行 DW 到 DM
我有一个设计/性能问题。
我有这张下一张桌子。
2015 年的同一张表...... 2010 年。
每个表大约有 1.5 亿行。因此,加起来我们谈论的是 10.5 亿行。
我收到了一个要求,BI 人员希望将其组合在一个视图上(像 select * from all_visits 一样疯狂)。
幸运的是,他们给了我一些 'where' 子句和一些他们不需要的列,所以最终结果将是 6 列和 20% 的行(2.1 亿行),但尽管如此,'view' 只是一个存储的询问。即使盒子有 60GB 的内存,它也与许多其他数据库共享。
我看到的选项:
- 而不是视图...将视图创建为表格并将它们移动到专用框。
- 每年创建一个视图?
- 将所有这些切换到 mongodb 或 vertica 之类的东西?!
- 任何先前的选项与列存储索引相结合?
sql - 如果数据集市有两种不同的粒度,如何解决?
我们正在从给定的数据源创建数据集市。我在数据集市中创建了以下表格。
所以如果我想做分析人口和会议县有不同的粒度。我想按年和按月进行分析。有没有办法将两个事实表组合成一个或任何建议?
etl - 数据集市的完整加载策略是否有任何缺点......?
...除了性能影响?
在我们的情况下,数据量将是可监督的,复杂性可能不会。
背景:
我经历了一个项目,其中数据集市每天都被完全加载。这简化了 ETL,因为不需要进行增量处理。出于同样的原因,性能也是可以接受的。但是,我不确定这种情况是否始终可用,是否存在不利因素,例如当最终用户告诉我们数据自 4 天以来“错误”时 - 很难追溯。
感谢您的输入
data-warehouse - Inmon 数据集市与 Kimball 数据集市
是 kimball 和 inmon 的唯一区别,企业层 (EDW)。我四处搜索,发现 inmon 也使用 EDW 创建数据集市。那么这是否意味着,对于给定的业务流程和源系统,这两个数据集市的结构相似?
一旦数据集市可用于这两个过程,它们是否提供相同的性能?
如果我错了,请纠正我,首先创建数据仓库,然后在其之上创建维度模型以满足特定的业务需求。(ER模型到维度模型)
我无法找到有关如何在 inmon 模型中创建数据集市的信息。我希望你们中的一些人可以帮助我。
sql-server - 加载时间维度表t-sql
我正在尝试(综合地)在星形模型数据集市中填充一个空的时间维度表,之后它应该如下所示:
我为此使用以下 T-SQL 代码:
然而,它不会加载。我收到的消息是:
消息 1:
字符串或二进制数据将被截断
和消息 2:
[执行 SQL 任务] 错误:执行查询“/* STEP 3 Populate DIM_TIJD table with date and it...”失败,出现以下错误:“语句已终止。”。可能的失败原因:查询有问题,“ResultSet”属性设置不正确,参数设置不正确,或连接未正确建立。”
我究竟做错了什么?SSMS 中没有下划线表示代码有问题,我检查了表和代码的所有 varchar 长度是否相同。我试过摆弄结果集设置,但这只会给我另一条消息:
消息 3:
[执行 SQL 任务] 错误:为 ResultSetType 返回的结果绑定数无效:“ResultSetType_SingleRow”。
先感谢您!
amazon-web-services - 将 DynamoDB 数据加载到 Redshift 的步骤?
我想知道我们如何将数据从 DynamoDB 加载到 Redshift。
根据文档,DynamoDB 是 NoSQL,Redshift 是 RDBMS。
那么如何以标准化的方式处理非结构化数据呢?
我什么时候需要规范化数据?
我想知道 Redshift 是否保留完整数据或转换后的数据。
我想知道加载增量数据的最佳方式。
谁能建议这个过程的步骤?