xml - Dspace 安然搜索工具

Question

我一直在使用 Enron Mail Corpus（从 CMU 源代码下载）在 Dspace 上开展一个项目。

我的问题是：

我想收集全部 60 万封电子邮件，然后生成一个可以搜索它们的存储库

手动输入每封邮件的元数据不是一个可行的选择，因为它们有数百万！Dspace 中的导入工具有什么帮助吗？还是有要编辑的文件？

我需要一些可行且快速的东西：我应该怎么做才能让系统收到这么多邮件？

第二个问题：可以对任何集合中的附件进行索引吗？我的意思是我可以搜索文件搜索工具的内容吗？

score 1 · Accepted Answer

如果要编辑或导入大量数据，可以使用批量元数据编辑。它非常适合导入元数据值，但以后必须手动添加文件。更多信息，请访问https://wiki.duraspace.org/display/DSDOC3x/Batch+Metadata+Editing#BatchMetadataEditing-TheCSVFiles

关于第二个问题，有一个索引支持文件的过程，称为“Filter-media”。它支持 Adobe PDF、HTML、文本、Microsoft Word 和 Microsoft Powerpoint。您可以编写一个 java 类来索引其他格式以满足您的需要。它执行 /bin/dspace filter-media，应该添加为 cron。

xml - Dspace 安然搜索工具

1 回答 1

Related

Reference