问题标签 [azure-synapse]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
data-warehouse - 查询 ADLS gen 2 上的性能
我正在尝试将我们的“老派”数据库(主要是时间序列)迁移到 Azure 数据湖。
所以我拿了一张随机表(10 年的数据,2 亿条记录,20Gb),将数据复制到单个 csv 文件中,也复制到相同的数据中,并创建了 4000 个每日文件(在每月文件夹中)。
在这两组文件之上,我创建了 2 个外部表....而且我得到的性能几乎相同。(?!?)
无论我在查询什么,无论我是在一天内查找数据(因此在一个小文件中)还是对整个数据集进行求和......基本上都需要 3 分钟,无论我在寻找在单个文件或每日文件 (4000) 中。就好像在做任何事情之前必须将整个数据集加载到内存中?!?
那么是否有一个我可以更改的设置,以避免在不需要时加载所有数据?它实际上可以使我的查询速度提高 1000 倍。
据我了解,外部表上不可能有索引。创建物化视图将破坏使用 Lake 的目的。吨
全面披露; 我是 Azure 数据存储的新手,我正在尝试看看它是否是解决我们问题的正确技术。
orc - Azure SQL 数据仓库 (Synapse Analytics) 使用 ORC 表的 Polybase 性能
我在 Azure 存储帐户(带 ADLS Gen2 功能)上使用 Spark(Databricks)生成了一个 ORC 表(使用 Snappy 压缩)。这个 ORC 代表大约 12 GB 的数据(12 亿行)。该表有 32 列。
生成后,我使用 Polybase 将该文件加载到 Synapse Analytics 表中的内部表中。
这是我使用不同配置的结果:
- DW100c / smallrc = 3h52
- DW400c / smallrc = 1h50
- DW400c / xlargerc = 1h58
- DW1000c / xlargerc = 0h50
- DW1500c / xlargerc = 0h42
当我查看存储帐户入口/出口时,我看到了几分钟内的活动(可能是为了在 Synapse 节点之间复制 ORC 文件)......然后 Synapse 资源开始受到压力。我看到 CPU 活动了一段时间,然后内存慢慢增加,缓慢,...
这里的内存(红色)和 CPU 最大百分比(蓝色)示例:
我需要再次扩大规模吗?我认为这不是网络吞吐量的 pb。或者可能是配置问题?关于 Polybase,我不明白为什么这么慢。Polybase 有望快速摄取 TB 的 ORC 数据!
BR,A.
编辑:DWU 使用
azure - 从本地 MySQL 提取和转换数据到 Azure Synapse 数据仓库
我正在尝试在 Azure Synapse 中设置演示数据仓库。我想从本地 MySQL 数据库中提取数据,转换和聚合一些数据,并将其存储在 Azure Synapse Analytics 中的事实/维度表中。
目前我有一个 Azure SQL 数据仓库和数据工厂的实例。我在数据工厂中创建了与我的 MySQL 数据库的连接,我的想法是,我可以使用此连接器作为新数据流的输入,该数据流转换数据集并将其存储到我的目标数据集,该数据集链接到我的 Azure Synapse 数据仓库.
问题是,数据工厂只支持一些 Azure 服务,如 Azure Data Lake 或 Azure SQL 数据库作为新数据流的源。
解决这个问题的最佳实践是什么?创建 Azure SQL 数据库实例,将数据从本地 MySQL 数据库复制到 Azure SQL 数据库,然后将其用作新数据流的源?
azure-sqldw - 使用通配符复制到路径 = 索引超出范围
我正在尝试使用 COPY INTO 来摄取存储帐户(ADLS Gen2)上文件夹中的文件。
如果我连接每个文件的路径,它就可以工作。
如果我使用这样的通配符:
我有这个错误:
有什么线索吗?
azure - Azure 数据工厂与 Synapse 工作区管道
谁能向我解释 Azure Synapse Workspace Pipelines 和 Azure 数据工厂之间的区别?似乎有很多重叠,或者好像数据工厂正在成为 Synapse Workspace 管道的一部分?
我仍在努力澄清这一点。谢谢迈克
azure - Azure DF - 从数据库中提取日期时间到 CSV 时,有时会被解释为 datetime2
运行从 CSV 到 Synapse 表的 Azure 数据工厂副本时,我们会遇到间歇性截断错误。目标表模式(在 Synapse 中)是我们最初从中提取数据的模式的镜像。
我们发现发生的事情是原始提取将日期时间误解为 datetime2 并将相关字段呈现为:2019-10-07 11:22:31.4400000 当我们从 Azure Data Lake Storage Gen2 运行副本到镜像 Synapse 表时,架构将该字段作为日期时间。复制函数尝试将字符串(CSV 和所有)转换为日期时间(与原始表相同)但失败。(错误:从字符串转换日期和/或时间时转换失败。)有趣的是,这个问题是间歇性的 - 原始日期时间字段有时会正确呈现为 CSV:2019-10-07 11:22:31.440(如图) .
我们将所有 SQL Db 模式重构为 datetime2 数据类型的愿望有限(出于显而易见的原因)。任何人都知道我们是否在这里遗漏了什么?
azure-pipelines - 缓慢的 Azure 数据工厂管道
我正在使用Azure Data Factory V2
将一些 csv 文件Azure Data Lake
从Azure Synapse
我有一个循环来查找特殊文件夹中的所有文件DataLake
。
在我有一个 DataFlow 将数据从登台传输到主表之后。
在我的 for-each 循环中,首先我通过 SP 清理我的暂存表,然后我从 csv 文件中读取数据(一个接一个)。将数据从 CVS 传输到我正在使用Copy Data
任务的临时表。我正在阅读所有列,varchar
并且暂存表中的所有列都是varchar
(这里没有强制转换)
每个文件有大约 20 列和大约 216 行。
我想知道为什么我的管道只需要三个文件就需要这么长时间?
这是我清理工作台的任务。
这是我的 SQL Server 规模和使用情况。
在恢复 Synapse 服务后,我运行了我的管道。那只是与我的突触一起工作的管道和服务。
这是我的存储过程:
这是我的DF
这是我的派生列
这将结束我的数据流中的映射
我应该在这里做点什么吗?
azure-synapse - 关于 Azure Synapse Analytics 的困惑
谁能帮我了解 Azure Synapse Analytics 包括哪些组件/服务?
根据我从微软网站和其他评论中看到的内容,它说它是新的 SQL 数据仓库,但是,它也说它汇集了所有这些:数据摄取(如 azure 数据工厂)、数据仓库和大数据分析(如数据湖)?
那么,当您购买 Azure Synapse Analytics 时,它究竟包含哪些组件?
谢谢。
azure - 使用 Azure Synapse 在 Azure 数据平台中的 AAS 表格模型或 SSAS 多维之间的最佳方法是什么
我们拥有本地 SQL Server Analysis Services (SSAS) 多维度,其中包含大量自定义复杂计算、大量度量值组、具有更多功能的复杂模型。我们每天处理数十亿行,并拥有自定义 Excel 插件来连接自定义数据透视表以及用于创建报告、运行临时查询等的标准数据透视表功能等等。
以下是 Azure 中可能的解决方案
方法 1:Azure Synapse、SSAS 多维 (ROLAP)、Excel 和 Power BI。请注意,SSAS 多维将作为托管在 VM 中的 IaaS 运行。Desktop excel/excel 365 将能够连接和 Cloud Power BI。
方法 2:Azure Synapse、Azure Analysis Services 表格模型直接查询、Excel 和 Power BI。Desktop excel/excel 365 将能够连接和 Cloud Power BI。
问题:基于庞大的数据量、处理、复杂的逻辑、维护和自定义计算,会采用哪种方式?
用户能否通过桌面 Excel 或 Excel 365 访问这些基于云的数据多维数据集,特别是 SSAS 多维?在直接查询模式下,ROLAP 与 DAX 的性能如何?移动和处理大量数据的成本是多少?