我推荐gscholar与pdftotext结合使用。
尽管 PDF 提供元数据,但它很少填充正确的内容。例如,通常“None”或“Adobe-Photoshop”或其他哑字符串代替标题字段。这就是为什么上述工具都不能从 PDF 中获取正确信息的原因,因为标题可能位于文档中的任何位置。另一个例子:许多会议论文集的论文可能还带有会议的标题,或者编者的名字,这会混淆自动提取工具。当你对论文的真正作者感兴趣时,结果就会大错特错。
所以我建议使用谷歌学者的半自动方法。
- 将 PDF 呈现为文本,以便您可以提取:作者和标题。
- 第二次复制粘贴一些此信息并查询谷歌学者。为了自动化这个,我使用了很酷的 python 脚本 gscholar.py。
所以在现实生活中,这就是我所做的:
me@box> pdftotext 10.1.1.90.711.pdf - | head
Computational Geometry 23 (2002) 183–194
www.elsevier.com/locate/comgeo
Voronoi diagrams on the sphere ✩
Hyeon-Suk Na a , Chung-Nim Lee a , Otfried Cheong b,∗
a Department of Mathematics, Pohang University of Science and Technology, South Korea
b Institute of Information and Computing Sciences, Utrecht University, P.O. Box 80.089, 3508 TB Utrecht, The Netherlands
Received 28 June 2001; received in revised form 6 September 2001; accepted 12 February 2002
Communicated by J.-R. Sack
me@box> gscholar.py "Voronoi diagrams on the sphere Hyeon-Suk"
@article{na2002voronoi,
title={Voronoi diagrams on the sphere},
author={Na, Hyeon-Suk and Lee, Chung-Nim and Cheong, Otfried},
journal={Computational Geometry},
volume={23},
number={2},
pages={183--194},
year={2002},
publisher={Elsevier}
}
编辑:小心,你可能会遇到验证码。另一个很棒的脚本是bibfetch。