我想创建一个研究数据库,我可以在其中存储和检索文章(PDF 文件)。有什么建议么?
我看过几个关系数据库教程,它们都没有提到文档的存储和检索,只有原始数据。
我想创建一个研究数据库,我可以在其中存储和检索文章(PDF 文件)。有什么建议么?
我看过几个关系数据库教程,它们都没有提到文档的存储和检索,只有原始数据。
我会考虑使用 Elasticsearch、Solr 或 Lucene 之类的东西,而不是传统的数据库方法。您可以索引、搜索和访问元数据。
这是通过附件插件的 Elasticsearch 方式:
https ://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-attachment-type.html
以及如何举例:
http://www.hashcode.eti。 br/?p=420
Solr:
https ://gist.github.com/nichtich/429904
和 Lucene:
https ://wiki.apache.org/lucene-java/LuceneFAQ#How_can_I_index_PDF_documents.3F
要在本地计算机上构建它:将所有文件放在一个文件夹/目录中,并对其进行唯一命名。使用任何数据库(Postgres、mysql、sqlite、mongo 等)来存储元数据并按名称引用 PDF 文件。即使您将其放入数据库 - 您也无能为力。
要在 Internet 上构建它,相同但使用 Amazon S3 之类的东西来存储 PDF 文件。如果您设想其他人与您合作,您可能会决定为它构建一个 Web UI:例如添加或评价文章。