0

我已经下载了我的收件箱,并且正在使用 Pig 和 Hadoop 处理我的电子邮件。我使用 Pig 和Wonderdog在 ElasticSearch 中索引这些电子邮件。

现在,我正在为收件箱中的每个电子邮件地址创建一个网页,以显示这些地址发送的消息。

我可以通过两种方式做到这一点:

1)在 Pig 中按电子邮件地址分组,存储到 MongoDB(或 ElasticSearch)。

2) 查询 ElasticSearch 以使用facets从电子邮件索引中为我返回此列表。

哪一个是首选答案,它取决于什么?

4

1 回答 1

1

选项 1 - 在 Pig 中按电子邮件地址分组,存储到 MongoDB(或 ElasticSearch):

您正在预先计算结果并将其存储到 MongoDB 或 ElasticSearch。如果数据很大并且不经常更新,这是一件好事。

选项 2 - 查询 ElasticSearch 以使用构面从电子邮件索引中为我返回此列表。

如果数据经常更新,甚至对于小数据集,最好使用此选项,因为查询数据(在正确的字段上编制索引)将提供快速结果,您不必依赖预处理。

于 2012-04-11T19:54:36.247 回答