9

我目前正在为应用程序选择一个 NOSQL 数据库,该数据库存储大量给定主题的电子邮件(=邮件列表)。他们每个人都有大量的电子邮件。作为这个领域的业余爱好者,我不知道我应该选择基于文档的 MongoDb 还是面向图形的 Neo4j。它更像是一次写入,多次读取。

Neo4j 的事实: 1. 电子邮件基本上是一个图表。每封电子邮件都是一个节点,一个回复另一个(= 一条边)。2. 图表可以很深,一封邮件可以有很多回复。3. 可能需要在图中重新排序一些电子邮件(如果确实需要,以清理排序)。

MongoDb 的事实: 1. 有时用户可能想要搜索一些基于参数的查询。例如来自用户 X 的所有电子邮件。 2. 电子邮件可能非常大。3. 文档看起来更简单。

我不知道属于哪里的事实:有时最好搜索父母并检查电子邮件从哪里复制文本(电子邮件正在回复的特定文本)。

有人可以帮帮我吗?

编辑:无论如何,我也对其他 nosql 数据库持开放态度。

4

1 回答 1

2

也许这篇博文会帮助您做出决定:http ://soloso.blogspot.com/2011/07/getting-enron-mail-database-into.html

请注意最底部的附录区域——@rit 扩展了原始代码并在 S3 上托管了语料库的转储。

这应该让您在 MongoDB 环境中进行相当多的实验。

布莱恩

于 2013-02-10T06:48:24.030 回答