file - 比较两个大文件以核对财务交易

Question

我正在尝试编写一个程序来比较两个大文件：两个文件应该每天比较金融交易。文件可以是 xml 或 csv 格式。每个文件有 3 到 400 万行和 50 列。对账发生在由一组关键字段定义的区域的基础上。

输出必须标识具有相同键但数据不同的行

我使用 SQL 比较（表中的每个文件），它可以工作，但它需要 Oracle 等数据库和强大的服务器

t 有使用 MapReduce 概念或基础 nosql 的解决方案

score 0 · Accepted Answer

我认为每天比较任何 rdbms（oracle、sql server、mysql、postgre）中的 2 个 3-4m 索引表不是问题，而且也不会花费太长时间。

您也可以使用基于 MapReduce 的数据处理系统（例如 Hadoop）来执行相同的操作。有一些 Hadoop 即服务平台，包括我们的 (Xplenty)，它可以帮助您快速完成并采用按使用付费的定价，这样您就可以降低进行此类处理的成本。我不建议使用基于 MapReduce 的解决方案来简单比较几百万条记录，但如果比较复杂，那么您可以尝试一下。

file - 比较两个大文件以核对财务交易

1 回答 1

Related

Reference