有很多工具可以从 PDF 文件中提取文本[1-4]。然而,大多数科学论文的问题是很难直接访问 PDF,主要是因为需要付费。除了 bibtex 信息 [5-6] 之外,还有一些工具可以轻松访问论文的信息,例如元数据或 bibtex 。我想要的是向前迈出一步,超越 bibtex/元数据:
假设无法直接访问出版物的 PDF 文件,有没有办法在给定论文的 DOI 或标题的情况下至少获得科学论文的摘要?通过我的搜索,我发现已经有一些尝试 [7] 用于某些类似的目的。有谁知道可以帮助我获取/提取科学论文摘要或全文的网站/工具?如果没有这样的工具,你能给我一些关于解决这个问题后我应该如何去做的建议吗?
谢谢
[1] http://stackoverflow.com/questions/1813427/extracting-information-from-pdfs-of-research-papers
[2] https://stackoverflow.com/questions/6731735/extracting-the-actual-in-text-title-from-a-pdf
[3] http://stackoverflow.com/questions/6731735/extracting-the-actual-in-text-title-from-a-pdf?lq=1
[4] http://stackoverflow.com/questions/14291856/extracting-article-contents-from-pdf-magazines?rq=1
[5] https://stackoverflow.com/questions/10507049/get-metadata-from-doi
[6] https://github.com/venthur/gscholar
[7] https://stackoverflow.com/questions/15768499/extract-text-from-google-scholar