问题标签 [sql-data-warehouse]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - 将 SQL 查询转换为 MDX - 具有 Group by 和 Count 函数
我有以下 SQL 查询,我正在尝试将其转换为 MDX:
内部查询返回每个店铺销售的 SKU 数量(使用“Group by ShopCode”实现)
首先,我尝试将内部查询转换为 MDX,我尝试了以下方法:
它没有返回任何东西。
请帮助我实现平均 SKU 销售量(外部查询)、每家商店销售的 SKU 数量(内部查询)的期望输出
azure - 在 azure sql 数据仓库中禁用列存储
我正在将 Azure Databricks 中的数据帧写入 sql 数据仓库
有了这个我得到一个错误Column 'username' has a data type that cannot participate in a columnstore index.
如何完全消除列存储,或更改列的数据类型以适应列存储?
我有一些列将被视为整数,而一些列将被视为 varchar。
azure - 如何在 Azure 数据仓库中设计维度表和事实表?
我正在将 SQL Server 数据库迁移到 Azure 数据仓库。我在早期的数据库中有维度表,其中有暗 id(基本上是整数值),并且这些在事实表中被引用以便于获取数据。这些暗淡的 id 是使用标识列生成的。
现在,在 Azure 数据仓库中,标识列值是随机生成的,我不确定是否在此处使用这些暗淡的 id。如果不使用这些 id,则可以使用文本列,但这会增加查找时间,进而影响性能。
那么,谁能建议我应该如何在 Azure 数据仓库中处理这些暗淡的 id?
问候,
普拉提克
azure - 防止 Azure SQL 数据仓库中重复数据的策略
目前我正在建立一个 Azure SQL 数据仓库。我将 Databricks 用于带有来自 Azure Blob 存储的 JSON 文件的 ETL 过程。
确保不将重复的维度或事实导入 Azure SQL 数据仓库的最佳做法是什么?
这可能发生在事实上,例如在加载过程中出现异常的情况。对于维度,如果我不检查哪些数据已经存在,这也可能发生。我正在使用以下代码将数据导入数据仓库,我发现没有“模式”只会导入不存在的数据:
sql-server - SQL Server 填充空行
下午好,
我有一个有趣的问题,我想把堆栈溢出社区。我们的数据仓库 (SQL Server) 中有一个具有唯一标识符的数据集和几个月的唯一标识符。例如,如果有人在 2018 年 12 月查看它并看到以下这些行:
我们希望以某种方式识别缺失的行(月)。例如对于上面,我们将插入以下行
- 二月、五月、六月、七月、八月和十二月 输入的最后一个月可以是运行查询的日期。
需要注意的是,这显然不是我们数据库中唯一的行分组。此外,我们会避免使用游标。我们已经尝试使用游标和包含所有有效值的临时表来执行此操作。但希望有一种更快的方法来解决这个问题。
对此的任何帮助将不胜感激。
一切顺利,乔治·艾瓦兹
azure - 在使用 Azure 数据工厂复制到 ADW 时将数据动态修剪为 4000 个字符
将数据从 blob 复制到 Azure 数据仓库时出现以下错误:
实际长度 = [4251]。MaxLEN=[3999],},],'", "failureType": "UserError", "target": "CopyToADW"
如何在复制到 ADW 时修剪数据而不对源数据进行任何更改?
sql - 用于将 Redshift 数据移动到 Azure SQL 数据仓库的分发方法
我在 Redshift 中有一个数据类型为文本的表。我想将此数据移动到 Azure 数据仓库。谁能为此建议最好的分发方法(哈希或循环)?因为数据类型是 Redshift 中的文本并且其中包含大数据
sql - 是否可以通过将列与另一个存在的临时表匹配来更改列?
我正在研究在 SQL Datawarehouse 的几个数据库中屏蔽个人数据。我创建了一个表,其中包含我想要屏蔽的列,并希望通过这样的单个脚本更改数据库中多个表中存在的这些列
这不起作用。有任何想法吗?
azure-sql-database - Azure SQL 数据仓库中的事实表设计
对于相对较小的事实表(每个表平均 3000 万行),这是最好的索引和分布设计。每个表的结构类似于以下:
TimeDimensionID、DimensionID1、DimensionID2、DimensionID3和DimensionID4的并集在事实表中是唯一的。目前,我们在 5 个字段中有一个聚集且唯一的主键。
- 将这些表迁移到 SQL Azure 数据仓库的最佳索引和分布是什么?我们正在考虑将 CLUSTERED INDEX(DimensionID1、DimensionID2、DimensionID3 和 DimensionID4)用于使用 TimeDimensionID 字段的索引和哈希分布。
- CLUSTERED INDEX 必须包含 TimeDimensionID 字段,即使散列分布是针对该字段的?
- 这种设计是正确的还是我们应该使用 COLUMN STORE INDEX,即使表实际上只有不到 1 亿行?
- 我们应该考虑为事实表使用复制表吗?
data-warehouse - SQL 数据仓库中的单个记录维度,似乎不合适,我还能如何满足这些需求?
业务需要一些单值维度:
也许它们都可以滚动到具有每个值的属性的单个维度中,但这不是我关心的问题。
这似乎是错误的。这些值每天或定期更改,充其量使它们缓慢地改变尺寸。但是,将这些值存储在 DW 中确实很有用。
- 如果事务性作业失败,则 DW 构建可能具有两天前的库存数据,这很重要。所以我将它存储在 DIM_BuildDate 中。
- 通常,日历日期与会计期间不匹配,尤其是在月份的开始和结束时。所以我将它存储为 DIM_CurrentAccountingPeriod。
- 有一个 FACT_ExchangeRate 存储一段时间内的汇率值,但业务人员想要一种简单的方法来访问“当前汇率”。
我想要实用,并提供诸如此类的有用对象,但我怀疑这些尺寸不符合正确的 Kimball 实现。
在 DW 中提供这些要求的另一种方法是什么?