“google-scholar”的相关标签问题

0 投票

1 回答

3286 浏览

internal-server-error - Google Server 在隐私浏览模式下的第一个请求出现服务器错误

每当我https://scholar.google.com/citations?user=N7m4vIQAAAAJ&hl=en在 Safari 和 Google Chrome 的私人窗口中运行该 url 时，Google 都会给出错误。

它仅发生在具有隐私浏览模式的第一个请求上。

有人知道为什么这只发生在特定环境中吗？这种情况从 3 天前就开始了。

-- 错误消息和捕获

Server Error We're sorry but it appears that there has been an internal server error while processing your request. Our engineers have been notified and are working to resolve the issue. Please try again later.

- - 添加

头文件包括

http header response Cache-Control: no-cache, must-revalidate Content-Encoding: gzip Content-Type: text/html; charset=UTF-8 Date: Mon, 16 Nov 2015 19:35:39 GMT Expires: Fri, 01 Jan 1990 00:00:00 GMT Pragma: no-cache Server: citations Set-Cookie: NID=73=eF98qod1NpYg7nb03RUToiSiacFgqNoZxQ4CuzqwGlQn53SoR7rHlzO0OExsmYkpRazROCQ3WqKoCsWKFPxp8dZr5pBra6nD1HPcxWUILl9gVAf5Q7GSQc3B0O3TP4gu; expires=Tue, 17-May-2016 19:35:39 GMT; path=/; domain=.google.com; HttpOnly X-Firefox-Spdy: h2 X-Frame-Options: SAMEORIGIN X-XSS-Protection: 1; mode=block p3p: CP="This is not a P3P policy! See http://www.google.com/support/accounts/bin/answer.py?hl=en&answer=151657 for more info." x-content-type-options: no sniff

2015-11-16T17:38:23.230

0 投票

1 回答

591 浏览

php - Google Scholar 服务器错误 HTML 解析器

直到这周，我才能够使用一个简单的 html dom 解析器从谷歌学者中抓取内容。（是的，我知道他们不希望人们这样做，因此没有 API）。

然而在过去的一两天里，它已经停止显示内容。尝试简单file_get_html或 url 时出现以下错误：

服务器错误很抱歉，在处理您的请求时似乎出现了内部服务器错误。我们的工程师已收到通知，正在努力解决此问题。请稍后再试。

我已经看到了其他问题，但解决方案大多是 R 特定的或使用 cURL。有没有人建议调整我的简单 php 函数，尤其是调用两次？还是我不走运，因为谷歌现在正在关闭这扇门？

我的代码：

php html-parsing internal-server-error google-scholar

2015-11-18T21:24:19.397

0 投票

0 回答

1067 浏览

php - Google Scholar 中的网页抓取

我正在尝试从 Google Scholar 个人资料页面中抓取。我的想法是我想使用 XPath 检索出版物列表，但我没有下载该页面，这是我的代码：我尝试使用 curl

并且没有 curl ：

得到它没有卷曲

用 curl 得到它

接着

但是 $autori 一直是空的，知道吗？

php curl web-scraping google-scholar

2015-11-23T13:33:17.223

0 投票

0 回答

424 浏览

python - 谷歌学者使用 python 请求失败的请求

尝试使用 Python requests模块从 url 获取文本时遇到问题。

在设法找到学术文章 bibtex 的 url 后，我无法获取包含 bibtex 的文本。

例如，通过一些 Python 代码行，我获得了这个链接，其中包含以下 bibtex：

@article{milgrom1994monotone, title={单调比较静力学}, author={Milgrom, Paul and Shannon, Chris}, journal={Econometrica: Journal of the Econometric Society}, pages={157--180}, year={1994 }, 发布者={JSTOR}}

它无法使用以下代码提取文本：

其中 google Academic 是一个包含“ https://scholar.google.com.br ”的字符串，而 url 是“/scholar.bib?q=info:46dohauatq8J:scholar.google.com/&output=citation&hl=en&ct=citation&cd=0 ”。

我觉得我错过了一些东西，因为当我将完整的网址复制并粘贴到谷歌浏览器上时，它可以正常工作；即，它打开页面而不是发出错误消息。

python python-requests bibtex google-scholar

2015-12-06T16:07:56.537

0 投票

1 回答

1150 浏览

python - 在 Python 中使用学术模块进行搜索查询期间的 StopIteration

我尝试使用 Python2.7 中的学术模块从 Google Scholar 获取特定论文的详细信息。我想收集 1000 篇论文的详细信息，并编写了下面提到的代码。

它在 10 到 12 次迭代后给我错误是

我已经浏览了 Stackoverflow 上的几个答案，但我无法修复它。

请帮我修复 StopIteration 错误

python iteration iterable google-scholar

2016-03-20T22:30:55.640

0 投票

2 回答

4196 浏览

python - 爬行谷歌学术

作为研究的一部分，我正在尝试获取大量学术文章的信息。文章的数量在数千个数量级。由于 Google Scholar 没有 API，我正在尝试抓取/抓取学者。现在，我认为这在技术上是违反 EULA 的，但我试图对此保持礼貌和合理。我了解 Google 不允许使用漫游器来将流量控制在合理的范围内。我开始测试一批约 50000 个请求，每个请求之间间隔 1 秒。在大约前 100 个请求后，我被阻止了。我尝试了多种其他策略，包括：

将停顿延长至约 20 秒，并为其添加一些随机噪音
使暂停日志呈正态分布（因此大多数暂停都在几秒钟的数量级，但时不时地会有几分钟或更长时间的暂停）
在请求块（~100）之间进行长时间的停顿（几个小时）。

我怀疑在这一点上，我的脚本是否会比任何人增加任何可观的流量。但是在大约 100-200 个请求之后，我总是被阻止。有谁知道克服这个问题的好策略（我不在乎是否需要数周，只要它是自动化的）。另外，有没有人有直接与谷歌脱节的经历，并要求允许做类似的事情（用于研究等）？是否值得尝试编写它们并解释我正在尝试做什么以及如何做，看看我是否可以获得我的项目的许可？我将如何联系他们？谢谢！

python web-crawler google-scholar

2016-03-28T20:45:12.300

0 投票

0 回答

1338 浏览

python - 使用 Academic.py 从 Google Scholar 获取作者的所有出版物

我正在尝试使用 Academic.py 获取作者的所有出版物

https://github.com/ckreibich/scholar.py

但是每当我运行脚本时，我的结果中只得到与作者相关的出版物的一小部分。

所以运行：

只会检索爱因斯坦在 Google Scholar 中与他相关的 1000 多篇出版物的一个子集。如何获得作者的所有出版物？

python citations google-scholar

2016-08-31T19:03:04.927

0 投票

2 回答

996 浏览

python - 根据 Google Scholar 的标签抓取作者

我正在做一个项目，希望从 Google Scholar 中抓取数据。我想抓取标记在一个类别中的所有作者（例如Anaphylaxis）并将他们的引用次数、h-index 和 i-10 索引存储在 CSV 文件中。但是，鉴于 Google Scholar 没有 API，我不确定如何执行此操作。我知道我可以使用像美丽汤这样的刮刀，但不确定如何在不被阻塞的情况下刮取数据。

所以，我的问题是如何使用 bs4 将所有标记为 Anaphylaxis 的作者以及每个作者的引文、h-index 和 i-10 索引存储在 csv 文件中。

python web-scraping bs4 google-scholar

2016-12-25T15:35:07.583

0 投票

2 回答

128 浏览

python - 抓取 Google Scholar 安全页面

我有一个这样的字符串：

我希望将其转换为：

我试过这个：

但是，会引发此错误：

python google-scholar

2016-12-26T01:30:29.007

0 投票

2 回答

1616 浏览

python - 在抓取 Google Scholar 时防止 503 错误

我编写了以下代码来从Google Scholar 安全页面中抓取数据。. 但是，每当我运行它时，我都会收到此错误：

我想这是因为 GS 阻止了我的请求。我怎样才能防止这种情况？

代码是：

python web-scraping urllib bs4 google-scholar

2016-12-26T13:16:40.560

问题标签 [google-scholar]

Reference