0

我正在寻找跨不同数据库运行SELECT * FROM TABLE查询的方法。仅举几例:postgres、teradata、mysql、bigquery、redshift。我想找到一种方法来并行化这个查询,这样我就可以产生多个线程来读取数据。每个线程将读取 n 条记录并将其转储到一个文件中(记录的数量是参数化的)。 示例: Table1 有 200 条记录:产生 4 个线程,每个线程读取 50 条记录并写入单独的文件,这总共给了我们 4 个文件。我发现了关于LIMIT/OFFSET的信息,但它不够通用,无法在这些平台上使用。我正在使用 jdbc 结果集。

有什么办法可以实现这一点,还是必须编写特定于数据库的实现?我需要这个的原因可能需要处理来自单个表的数百万条记录,并且我需要将其转储到受 n 条记录限制的文件中。因此,如果我有 100 万条记录并且我的限制大小为 200k,我将得到 5 个文件作为输出。

任何形式的提示/建议/帮助表示赞赏,谢谢。

4

0 回答 0