问题标签 [sql-data-warehouse]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure - 为什么 Polybase 对于跨越 10 亿条记录的大型压缩文件速度很慢?
在查询更大的数据集以便将记录从 Blob 存储插入 Azure 数据仓库时,什么会导致 Polybase 性能下降?
例如,几千个压缩 (.gz) CSV 文件,其标头在 6 个月的数据中每天按几个小时进行分区。从 SSMS 中的外部表中查询这些文件并不是最佳选择,而且速度极慢。
客观地说,我将数据加载到 Polybase 以便将数据传输到 Azure 数据仓库。除了大型数据集,Polybase 似乎很慢。
有哪些选项可用于优化 Polybase?在每次上传到 Blob 存储后等待查询或加载数据?
azure - Azure 数据工厂复制活动性能调整
https://docs.microsoft.com/en-us/azure/data-factory/data-factory-load-sql-data-warehouse。根据这个 1000 DWU 和 polybase 的链接,我应该得到 200MBps 的吞吐量。但我得到 4.66 MBps。我在 xlargerc 资源类中添加了用户,以实现 azure sql 数据仓库的最佳吞吐量。
下面是管道 JSON。
输入数据集:
输出数据集:
配置中是否缺少任何内容?
azure-sql-database - 为什么在 Azure SQL DW 中 CTAS 语句如此之快?
我注意到SQL 数据仓库语句中的Create Table As Select (CTAS)与 Select into 语句相比非常快。
我想知道微软做了什么魔法让它这么快?
sql - Azure SQL 数据仓库同步工具
我希望自动将数据从 Azure SQL 数据库同步到 Azure SQL 数据仓库。它可能只需要插入而不是更新,它将涉及 25-35 个表和几个表中的几百万条记录。(稍后,一旦数据同步,我们可能会从源中删除同步记录。)
任何人都可以推荐一些可以满足上述大多数要求的工具或方法吗?
我看过数据工厂,但这似乎不适合增量负载
azure - Azure 数据仓库插入大表
将新数据插入 Azure 数据仓库中现有表的约定模式似乎是……
现在,我们看到的是,在非常大的桌子上,这会随着时间的推移而退化,很明显为什么你要阅读你已经拥有的所有东西,然后重新插入它......这对我来说似乎不是最理想的......
有没有人有任何他们看到对他们有用的替代方法,我正在考虑诸如分区切换之类的事情......
azure - 配置没有公共 URL 的 Azure 应用服务
我正在尝试从 Visual Studio 15.2 部署 Azure 应用服务。具体来说,我正在尝试部署以下服务:https ://github.com/Microsoft/Azure-SQL-DB-auditing-OMS-integration以将审计日志从 SQL 数据仓库摄取到 OMS。但是,出于安全考虑,我们希望在不创建公共端点(即 url)的情况下这样做。我们已尝试在 VNet 中对其进行配置,但除非 VNet 具有公共网关,否则它不允许您这样做。
sql - Azure SQL 数据仓库中运行缓慢的查询
我有一个非常简单的查询,我在 Azure SQL 数据仓库中运行,但执行大约需要 40 秒。
表定义:
查询是:
表中有 13,083,667 条记录。任何人都可以帮助我优化这个。我为此提供了 100 个 DWU。
提前致谢。
sql-server - Create External Table in Azure SQL Data warehouse to a wild card based file or folder path
I know we can create an External table in Azure SQL Data warehouse pointing to a LOCATION that is either a file path or a folder path. Can this file or folder path be based on a wild card pattern instead of an explicit path.
Here my file path is a location in Azure Data Lake Store.
-- Syntax for SQL Server
database - Redshift - 数据仓库数据刷新
我的数据仓库建立在 Amazon Redshift 上。我目前面临的问题是,我的模式中有一个巨大的事实表(大约 500M 行),其中包含大约 10 个客户端的数据。我有定期(主要是每天)为此事实表生成数据并需要刷新的进程,这意味着 - 删除旧数据并插入新生成的数据。
问题是,这个批量删除插入操作在我的事实表中留下了需要 VACUUM 的漏洞,这很耗时,因此无法立即完成。而这个事实表(由于删除的数据而存在巨大的漏洞)会极大地影响快照时间,快照时间会消耗事实表和维度表中的数据并在下游表示区域中刷新它。如何在 DWH 环境中优化此类批量数据刷新?
我相信这应该是 DWH 中一个众所周知的问题,有一些推荐的方法来解决。谁能指出推荐的解决方案?
PS:一种解决方案可以是为每个客户端创建表,并在其之上有一个视图,该视图将所有基础表联合起来。在这种情况下,如果我打破每个客户端的事实表,它会非常小,并且可以在删除插入后快速清除,但要寻找具有更好可维护性的解决方案。
azure - 将数据从 sql server 实时流式传输到 Azure Datawarehouse
我正在尝试在 Microsoft Azure 数据仓库之上构建实时报告服务。目前我有一个大约 5 TB 数据的 SQL 服务器。我想将数据流式传输到数据仓库,并使用 Azure DW 的计算能力生成基于数据的实时报告。是否有任何准备好使用/最佳实践来做到这一点?
我正在考虑的一种方法是将数据加载到 Kafka 中,然后通过 Spark 流将其流式传输到 Azure DW。然而,这种方法比实时更接近实时。有什么方法可以利用 SQL Server Change Data Capture 将数据流式传输到数据仓库中?