我正在做需要大规模引文数据的研究。我想访问 web of science 的数据库。例如,我可能想要 2013 年在 Nature 上发表的所有论文的引用。我怎样才能得到这样的数据集?科学网是否向用户开放数据库?还是我需要自己以某种方式抓取数据?任何建议表示赞赏。吨
问问题
105 次
1 回答
0
如果您想在自己的计算机上离线获取引文,您必须抓取数据并存储。要抓取数据,我建议使用 Apache Tika:“Apache Tika™ 工具包使用现有的解析器库从各种文档(从 PPT 到 CSV 再到 PDF)检测和提取元数据和文本内容”——来自 Tika 网站Apache Tika。
大规模地谈论,我认为这是最好的方法,因为一旦下载,它将在您的计算机上执行您想要的许多搜索,而无需等待搜索完成,因为远程搜索的延迟
于 2014-07-10T02:22:47.847 回答