我们有如下的 ORACLE 存储过程:(伪代码)
创建存储过程(参数)
开始
选择报表;
调用光标,然后插入另一个表;
调用其他存储的程序;
结尾;
我们有很多像上面这样的存储过程。我们的数据已经增长,存储过程运行缓慢。我们希望将这些存储过程转换为 HIVE 或其他 hadoop 生态系统。请建议我们哪个 hadoop 生态系统支持这种情况。
我们有如下的 ORACLE 存储过程:(伪代码)
创建存储过程(参数)
开始
选择报表;
调用光标,然后插入另一个表;
调用其他存储的程序;
结尾;
我们有很多像上面这样的存储过程。我们的数据已经增长,存储过程运行缓慢。我们希望将这些存储过程转换为 HIVE 或其他 hadoop 生态系统。请建议我们哪个 hadoop 生态系统支持这种情况。
答案实际上取决于整体情况:数据库中存储了什么,如何到达那里,存储过程在做什么,以及如何访问结果。我认为您无法将这么大的问题转换为可在 stackoverflow 上回答的格式。
要回答具体问题,您似乎正在使用存储过程进行 ETL。在 Hadoop 中有许多等价物,最著名的是:plain map-reduce、pig/hive 脚本、spark。但是它们不能处理您数据库中的数据,因此您需要先将数据导入 Hadoop。
如果您使用游标和插入处理数据,这可能是您的过程运行缓慢的原因。您是否考虑过聘请顾问,他可以建议优化处理的方法,而无需在 Hadoop 上从头开始重写所有内容?