Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在考虑对一组包含超过 4 年通信的大型单个 .pst 文件进行一些文本挖掘。
最初,我只想提取标题信息来识别社交网络,但最终想开始根据关键词对电子邮件进行分类,或者创建一些结构化的输出来支持进一步的分析。
有没有人有任何建议从哪里开始?
您应该检查在公开可用的Enron 电子邮件数据集上所做的研究-> 该页面有一些有趣论文的链接