我有一个遗留系统,它使用 SAS 从数据库中提取原始数据,清理和整合它,然后对输出的文档进行评分。
我想迁移到 Java 或类似的面向对象的解决方案,这样我就可以实现单元测试,以及一般更好的代码控制。(我不是在谈论检修整个系统,而是在我可以的地方注入 java)。
就数据大小而言,我们谈论的是大约 1 TB 的数据被摄取和创建。在扩展方面,这可能会增加大约 10 倍,但不太可能像全球 Web 项目那样大规模增加。
问题是——什么样的工具最适合这种项目?
我在哪里可以找到这些信息 - 应该使用哪些搜索词?
对 SQL 数据库进行处理(根据需要创建和删除表、添加列)是合适的还是糟糕的解决方案?
我已经快速了解了 Hadoop——但是由于这个项目的规模很小,Hadoop 会不会是一个不必要的复杂性?
是否有任何 Java 包在合并、连接、排序、分组数据集以及修改数据方面具有与 SAS 或 SQL 类似的功能?