我一直在使用 Enron Mail Corpus(从 CMU 源代码下载)在 Dspace 上开展一个项目。
我的问题是:
- 我想收集全部 60 万封电子邮件,然后生成一个可以搜索它们的存储库
手动输入每封邮件的元数据不是一个可行的选择,因为它们有数百万!Dspace 中的导入工具有什么帮助吗?还是有要编辑的文件?
我需要一些可行且快速的东西:我应该怎么做才能让系统收到这么多邮件?
- 第二个问题:可以对任何集合中的附件进行索引吗?我的意思是我可以搜索文件搜索工具的内容吗?
如果要编辑或导入大量数据,可以使用批量元数据编辑。它非常适合导入元数据值,但以后必须手动添加文件。更多信息,请访问https://wiki.duraspace.org/display/DSDOC3x/Batch+Metadata+Editing#BatchMetadataEditing-TheCSVFiles
关于第二个问题,有一个索引支持文件的过程,称为“Filter-media”。它支持 Adobe PDF、HTML、文本、Microsoft Word 和 Microsoft Powerpoint。您可以编写一个 java 类来索引其他格式以满足您的需要。它执行 /bin/dspace filter-media,应该添加为 cron。