我有一个脚本,它匹配 500 万条记录(A)和 4 万条记录(B)。如果匹配,则将电子邮件异步放置到队列中。
如果 A 的某些属性与 B 匹配,则匹配发生。目前此脚本大约需要 1 天才能完成。
我想将这段时间减少到使用 hadoop 的 3 到 4 个小时。
我想,我会将 A 存储在文件中,这个文件将输入到我的 Mapper 中。可以淘汰减速机。
对于 B 的最小或无磁盘读取的存储策略应该是什么?就像我应该把它放在哪里一样。内存缓存、hdfs 等。Memcache 似乎是一个不错的选择,因为它消除了运行时的磁盘访问。但欢迎提出建议。
我是hadoop的新手。那么在这种情况下推荐的方法是什么。