1

我一直在使用 Enron Mail Corpus(从 CMU 源代码下载)在 Dspace 上开展一个项目。

我的问题是:

  1. 我想收集全部 60 万封电子邮件,然后生成一个可以搜索它们的存储库

手动输入每封邮件的元数据不是一个可行的选择,因为它们有数百万!Dspace 中的导入工具有什么帮助吗?还是有要编辑的文件?

我需要一些可行且快速的东西:我应该怎么做才能让系统收到这么多邮件?

  1. 第二个问题:可以对任何集合中的附件进行索引吗?我的意思是我可以搜索文件搜索工具的内容吗?
4

1 回答 1

1

如果要编辑或导入大量数据,可以使用批量元数据编辑。它非常适合导入元数据值,但以后必须手动添加文件。更多信息,请访问https://wiki.duraspace.org/display/DSDOC3x/Batch+Metadata+Editing#BatchMetadataEditing-TheCSVFiles

关于第二个问题,有一个索引支持文件的过程,称为“Filter-media”。它支持 Adob​​e PDF、HTML、文本、Microsoft Word 和 Microsoft Powerpoint。您可以编写一个 java 类来索引其他格式以满足您的需要。它执行 /bin/dspace filter-media,应该添加为 cron。

于 2014-10-02T06:38:49.587 回答