-1

我正在尝试编写一个程序来比较两个大文件:两个文件应该每天比较金融交易。文件可以是 xml 或 csv 格式。每个文件有 3 到 400 万行和 50 列。对账发生在由一组关键字段定义的区域的基础上。

输出必须标识具有相同键但数据不同的行

我使用 SQL 比较(表中的每个文件),它可以工作,但它需要 Oracle 等数据库和强大的服务器

t 有使用 MapReduce 概念或基础 nosql 的解决方案

4

1 回答 1

0

我认为每天比较任何 rdbms(oracle、sql server、mysql、postgre)中的 2 个 3-4m 索引表不是问题,而且也不会花费太长时间。

您也可以使用基于 MapReduce 的数据处理系统(例如 Hadoop)来执行相同的操作。有一些 Hadoop 即服务平台,包括我们的 (Xplenty),它可以帮助您快速完成并采用按使用付费的定价,这样您就可以降低进行此类处理的成本。我不建议使用基于 MapReduce 的解决方案来简单比较几百万条记录,但如果比较复杂,那么您可以尝试一下。

于 2013-08-07T07:49:30.060 回答