问题标签 [datamart]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
elasticsearch - 将 ElasticSearch 和 Kibana 用于商业智能
我们在产品中使用 ElasticSearch 进行搜索。这工作正常。
现在我们想为我们的客户提供自助式商业智能。由于性能影响,对操作数据库的报告很糟糕。在运行时,计算 1000 万条记录的平均“订单解决时间”不会及时获取结果。传统方式是通过使用 ETL 加载运营数据并对其进行汇总来创建数据集市。然后使用任何报告引擎,向客户提供指标和报告。这种方法有效,但增加了我们客户的总拥有成本。
我想知道是否有人使用 ElasticSearch 作为报告的中间数据表面。Kibana 能否满足数据探索、可视化的需求?
etl - 如何在 Sql Server Data Tools(集成服务)中订购 ETL 任务?
我是ETL处理的新手。我正在尝试通过 ETL 填充数据集市并且遇到了问题。我有 4 个 ETL 任务(每个任务填充 Mart 中的特定表),问题是我需要按特定顺序执行它们,以避免违反外键约束等约束。我怎样才能做到这一点?非常感谢任何帮助。
这是我当前 ETL 的快照:
database-design - 如何处理具有相似属性的维度?
我的数据集市中有以下实体:
- 位置:包含国家、城市等信息。
- 用户:包含有关用户的信息,其中包括他们的地址,其中包括国家和城市
这两个维度都包含有关国家和城市的属性。仅将属性存储在位置维度中会更有意义,因此我们不会重复数据,并且可以通过事实表将表代理键连接在一起来检索用户的位置信息。但是,这样做会增加开销,因为我们需要执行多个连接。
我对维度建模和数据仓库缺乏经验,所以我不知道哪个是更好的做法:
- 让两个维度包含相同的属性
- 将属性放入它所属的表中(在本例中为 Location 维度)
sql-server - 强制受信任的外键 SQL Server 允许在视图中加入剔除
我正在尝试根据其维度创建事实的星型模式视图。
例如。
如果视图是
我查询
它将忽略_dim
.
这样做的一种方法是为维度创建受信任的外键。然而,这意味着我必须创建并启用检查约束,这会减慢我的插入速度。
https://www.brentozar.com/archive/2015/05/do-foreign-keys-matter-for-insert-speed/
有没有更好的方法允许在视图中加入剔除?
有没有办法强制 SQL 服务器将外键标记为可信?
例如类似的东西
google-bigquery - BigQuery 比 SQL Server 慢
我正在比较 SQL Server 2016(星型模式并使用基于列的聚集索引)和 BigQuery(一个表)之间的数据集市中的查询执行时间。我有大约 2000 万个条目。这是我的查询 - 我需要按月计算石油、天然气、水量的总和。10 年来,我每天都有单次条目。我有 6500 个实体,每个实体都有 10 年的石油、天然气、水量的单一条目……所以总行数……6500(实体总数)* 10(总年数)* 365(总天数)=23725000。 .暂时忽略闰年
BigQuery - 旧版 SQL(需要 5 秒)
SQL Server 2016 - 星型架构(耗时 2 秒) - 在 Google Compute Engine 中的 VM 内运行 - n1-standard-4
我只举了一个例子,但它发生在各种不同的查询中。我错过了什么吗?为什么 BigQuery 这么慢?
编辑:我正在附加示例模式......它不完整..
hadoop - 将数据从 Csv 文件自动获取到 Datalake 的最佳方法
我需要从 csv 文件(每天从不同的业务数据库中提取)获取数据到 HDFS,然后将其移动到 Hbase 并最终将这些数据汇总到数据集市(sqlServer)。
我想知道自动化这个过程的最佳方法(使用 java 或 hadoops 工具)
sql - 数据集市 - 表格类型
我在没有任何工具的情况下与 DatMart 合作。我有一张表格,其中列出了学生的详细信息。
一个学生可以注册多个程序如下。(不是固定的)
现在我将这两个表组合在一起,我想制作一张 REP_student 表,其中包含我想要的所有详细信息。但它不应该给我两排。(请参阅表结构) SQL 中是否有任何表类型。实现它的最佳方法是什么?
谢谢
sql - SQL 中物化视图和数据集市的区别?
我试图了解两者之间的区别,以及何时使用其中一个是可取的。
sql - 如何在 SQL Server 中使用 SQL 实现以下任务
我得到了这个任务,我必须care_team_member_name
从DIM_CARE_TEAM_MEMBER
表中选择。条件是,对于特定的care_team_member_Engagement_id
,我们需要选择活跃的成员,即它care_team_member_end_date
是空的,对于非活跃的成员,我们已经选择了care_team_member_end_date
该特定的最大值care_team_member_Engagement_id
。
我能够使用以下查询实现第二部分
但我无法实现我选择care_team_member_name
特定参与 ID的第一部分
例如:
从此表中,我必须选择结束日期为空的名称