我正在寻找最适合以下标准的 ETL 工具。
- 支持 MongoDB
- 接受元数据作为输入(或接受文件并即时构建其元数据)
- 提供可配置的映射。(映射可以从外部开发中定义,使用一些文件 ot 表)
请推荐适合上述需求的工具。
我正在寻找最适合以下标准的 ETL 工具。
请推荐适合上述需求的工具。
嗯,您的任务是寻找最可配置的 ETL 工具。根据过去多年的 ETL 流程经验,我可以告诉您,您永远找不到满足您所有需求的工具。尤其是当您拥有企业级数据仓库时(因为需要高和复杂的报告需求),唯一的软件解决方案就是构建您自己的基于项目的自定义 ETL 软件,这通常是忘恩负义的。
但是(big BUT),您可以使用现有工具实现至少 80% 的需求。插件、脚本的智能使用、良好的数据流设计和(如果需要)与调度配对的小型定制软件可以帮助您完成想象的过程。与任何其他工作相比,ETL 过程似乎没有什么不同 -80% of the work is done in 20% of time, and the rest of work (20%) is done in 80% of time.
我给你的建议:
Pentaho 数据集成- 免费和开源
PDI是强大的ETL工具,surley可以满足您的需求。如果您要开发更多插件,这里有大量的插件、可靠的社区和优秀的 API。
Pentaho 数据集成 + 集成服务器 - 企业版- 几乎每个中型项目都“足够便宜”
企业版拥有免费版的一切,包括更多插件(例如 JMS 生产者)、版本控制系统、instaview 等。此外,它有自己的服务器,因此调度是基于软件(不是基于操作系统)、日志记录、更好的管理和最重要的 - 支持!
Informatica 或 Microsoft SSIS - 昂贵而出色
我不会为这个工具浪费言语。Informatica 是主要面向 ETL 的公司,在高层次上使用 Informatica 需要深入了解 DB/DWH 设计、ETL 流程、PL/SQL、维度建模等。
SSIS 主要是为 SQL Server 构建的,因此如果至少有一个源数据库或目标数据库 (DWH) 未在 SQL Server 上运行,我看不到高使用需求。
结论
这只是市场提供给我们的大量工具中的一小部分。其他人可能甚至不会提及这些工具。请看清单之一。
几乎每个 BI 系统都有自己的 ETL 工具。也许最好的选择是一起使用它,这样你就有可能最大限度地利用两者。
注意:优秀的 ETL 项目经理或 ETL 开发人员可以将工具优势扩展到更好/更昂贵的水平!