我即将开始一个需要大量数据转换和处理操作的研究项目。一方面,数据相当庞大——原始数据集通常为 10GB——因此效率是一个问题。另一方面,这些操作中的许多都是一次性的,并且很少重新运行,因此构建可部署的应用程序是一种矫枉过正的做法。它不是一个用户应用程序,而主要是一个实验。
一些特点和限制:
- 大量的链式格式转换——JSON 和 XML 到表格格式,然后是一些补丁,然后是文本索引,然后导出到其他格式,等等。
- 我有一台多核机器,但没有几台机器,至少一开始是这样。
- 数据不能作为一个整体放在主内存中,根据我的经验,需要利用多个内核。
有哪些推荐的工具来处理这样的项目?我的偏好是:
- 轻松处理多种格式(JSON、XML、CSV)
- 支持多个来源和接收器(文本文件、档案、数据库)
- 使用多个核心
- 尽可能少的管理、部署问题等。
编程语言不是问题,我可以管理 Windows 或 Linux。谢谢!