我们的客户有一个共同的问题,即许多分布式数据存储具有不同的技术堆栈。最后的游戏是将某些部分数据整合在一起,通过 Microsoft Power BI 生成详细的报告。
这种方法有标准模式吗?我最初的想法是
- 在可能的情况下,Azure 数据工厂将数据迁移到 Azure Data Lake。
- 如果无法做到这一点,请自动将数据提取和转储到 Azure Data Lake。
- 用户 Power BI Desktop 连接到 csv 数据集以生成模型和报告(同时执行相当大的转换)
- 发布到 PowerBI 服务以在用户之间共享
担心...
- 我们应该在数据工厂(或其他一些 ETL)中使用 DataFlows 进行转换还是继续使用 PowerBI 中的查询编辑器
- 在 PowerBI Desktop 中连接多个数据集并执行大量转换活动是否存在性能问题?
- 为了用新数据更新报告,是否只是覆盖数据湖中以前的 CSV 文件并刷新报告的情况?