database - Google 如何抓取数据库，例如科学数据库？

Question

它是否有权访问数据库，或者它可能位于中间并爬取结果，其他人由他们的查询生成？无论如何，是否有可能编写一个爬虫来爬取像 elsevier 这样的科学数据库并提取信息并将其存储在一个数据库中，比如文章标题和发布年份和作者......等等？

score 1 · Accepted Answer

问题标题为“科学数据库”，表示实验定量数据的存储库。这是一个相当广泛的问题，因为没有任何结构可以强加于所有实验结果的宇宙。此外，研究人员有兴趣在发表之前限制对其数据的访问。但是，如果您对此感兴趣，您可以从开放笔记本科学的 Wikipedia 条目开始：http ://en.wikipedia.org/wiki/Open_notebook_science 。

但是，问题的示例（“Elsevier”、“文章标题”）描述了有关科学主题的期刊文章的存储库。通常，一些文章元数据是公开可用的，因此可以（原则上）抓取摘要、关键字、作者姓名等信息。但是一篇文章的内容及其引用受到付费墙的保护。（一个越来越重要的例外是开放获取期刊的趋势。）

这是一篇随机选择的示例文章，来自 Nature： http: //www.nature.com/nature/journal/v485/n7396/full/nature10912.html

database - Google 如何抓取数据库，例如科学数据库？

1 回答 1

Related

Reference