1

我正在考虑对一组包含超过 4 年通信的大型单个 .pst 文件进行一些文本挖掘。

最初,我只想提取标题信息来识别社交网络,但最终想开始根据关键词对电子邮件进行分类,或者创建一些结构化的输出来支持进一步的分析。

有没有人有任何建议从哪里开始?

4

1 回答 1

2

您应该检查在公开可用的Enron 电子邮件数据集上所做的研究-> 该页面有一些有趣论文的链接

于 2011-03-09T12:59:18.343 回答