问题标签 [google-scholar]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
internal-server-error - Google Server 在隐私浏览模式下的第一个请求出现服务器错误
每当我https://scholar.google.com/citations?user=N7m4vIQAAAAJ&hl=en
在 Safari 和 Google Chrome 的私人窗口中运行该 url 时,Google 都会给出错误。
它仅发生在具有隐私浏览模式的第一个请求上。
有人知道为什么这只发生在特定环境中吗?这种情况从 3 天前就开始了。
-- 错误消息和捕获
Server Error
We're sorry but it appears that there has been an internal server error while processing your request. Our engineers have been notified and are working to resolve the issue.
Please try again later.
- - 添加
头文件包括
http header response
Cache-Control: no-cache, must-revalidate
Content-Encoding: gzip
Content-Type: text/html; charset=UTF-8
Date: Mon, 16 Nov 2015 19:35:39 GMT
Expires: Fri, 01 Jan 1990 00:00:00 GMT
Pragma: no-cache
Server: citations
Set-Cookie: NID=73=eF98qod1NpYg7nb03RUToiSiacFgqNoZxQ4CuzqwGlQn53SoR7rHlzO0OExsmYkpRazROCQ3WqKoCsWKFPxp8dZr5pBra6nD1HPcxWUILl9gVAf5Q7GSQc3B0O3TP4gu; expires=Tue, 17-May-2016 19:35:39 GMT; path=/; domain=.google.com; HttpOnly
X-Firefox-Spdy: h2
X-Frame-Options: SAMEORIGIN
X-XSS-Protection: 1; mode=block
p3p: CP="This is not a P3P policy! See http://www.google.com/support/accounts/bin/answer.py?hl=en&answer=151657 for more info."
x-content-type-options: no sniff
php - Google Scholar 服务器错误 HTML 解析器
直到这周,我才能够使用一个简单的 html dom 解析器从谷歌学者中抓取内容。(是的,我知道他们不希望人们这样做,因此没有 API)。
然而在过去的一两天里,它已经停止显示内容。尝试简单file_get_html
或 url 时出现以下错误:
服务器错误 很抱歉,在处理您的请求时似乎出现了内部服务器错误。我们的工程师已收到通知,正在努力解决此问题。请稍后再试。
我已经看到了其他问题,但解决方案大多是 R 特定的或使用 cURL。有没有人建议调整我的简单 php 函数,尤其是调用两次?还是我不走运,因为谷歌现在正在关闭这扇门?
我的代码:
php - Google Scholar 中的网页抓取
我正在尝试从 Google Scholar 个人资料页面中抓取。我的想法是我想使用 XPath 检索出版物列表,但我没有下载该页面,这是我的代码:我尝试使用 curl
并且没有 curl :
得到它没有卷曲
用 curl 得到它
接着
但是 $autori 一直是空的,知道吗?
python - 谷歌学者使用 python 请求失败的请求
尝试使用 Python requests模块从 url 获取文本时遇到问题。
在设法找到学术文章 bibtex 的 url 后,我无法获取包含 bibtex 的文本。
例如,通过一些 Python 代码行,我获得了这个链接,其中包含以下 bibtex:
@article{milgrom1994monotone, title={单调比较静力学}, author={Milgrom, Paul and Shannon, Chris}, journal={Econometrica: Journal of the Econometric Society}, pages={157--180}, year={1994 }, 发布者={JSTOR}}
它无法使用以下代码提取文本:
其中 google Academic 是一个包含“ https://scholar.google.com.br ”的字符串,而 url 是“/scholar.bib?q=info:46dohauatq8J:scholar.google.com/&output=citation&hl=en&ct=citation&cd=0 ”。
我觉得我错过了一些东西,因为当我将完整的网址复制并粘贴到谷歌浏览器上时,它可以正常工作;即,它打开页面而不是发出错误消息。
python - 在 Python 中使用学术模块进行搜索查询期间的 StopIteration
我尝试使用 Python2.7 中的学术模块从 Google Scholar 获取特定论文的详细信息。我想收集 1000 篇论文的详细信息,并编写了下面提到的代码。
它在 10 到 12 次迭代后给我错误是
我已经浏览了 Stackoverflow 上的几个答案,但我无法修复它。
请帮我修复 StopIteration 错误
python - 爬行谷歌学术
作为研究的一部分,我正在尝试获取大量学术文章的信息。文章的数量在数千个数量级。由于 Google Scholar 没有 API,我正在尝试抓取/抓取学者。现在,我认为这在技术上是违反 EULA 的,但我试图对此保持礼貌和合理。我了解 Google 不允许使用漫游器来将流量控制在合理的范围内。我开始测试一批约 50000 个请求,每个请求之间间隔 1 秒。在大约前 100 个请求后,我被阻止了。我尝试了多种其他策略,包括:
- 将停顿延长至约 20 秒,并为其添加一些随机噪音
- 使暂停日志呈正态分布(因此大多数暂停都在几秒钟的数量级,但时不时地会有几分钟或更长时间的暂停)
- 在请求块(~100)之间进行长时间的停顿(几个小时)。
我怀疑在这一点上,我的脚本是否会比任何人增加任何可观的流量。但是在大约 100-200 个请求之后,我总是被阻止。有谁知道克服这个问题的好策略(我不在乎是否需要数周,只要它是自动化的)。另外,有没有人有直接与谷歌脱节的经历,并要求允许做类似的事情(用于研究等)?是否值得尝试编写它们并解释我正在尝试做什么以及如何做,看看我是否可以获得我的项目的许可?我将如何联系他们?谢谢!
python - 使用 Academic.py 从 Google Scholar 获取作者的所有出版物
我正在尝试使用 Academic.py 获取作者的所有出版物
https://github.com/ckreibich/scholar.py
但是每当我运行脚本时,我的结果中只得到与作者相关的出版物的一小部分。
所以运行:
只会检索爱因斯坦在 Google Scholar 中与他相关的 1000 多篇出版物的一个子集。如何获得作者的所有出版物?
python - 根据 Google Scholar 的标签抓取作者
我正在做一个项目,希望从 Google Scholar 中抓取数据。我想抓取标记在一个类别中的所有作者(例如Anaphylaxis)并将他们的引用次数、h-index 和 i-10 索引存储在 CSV 文件中。但是,鉴于 Google Scholar 没有 API,我不确定如何执行此操作。我知道我可以使用像美丽汤这样的刮刀,但不确定如何在不被阻塞的情况下刮取数据。
所以,我的问题是如何使用 bs4 将所有标记为 Anaphylaxis 的作者以及每个作者的引文、h-index 和 i-10 索引存储在 csv 文件中。
python - 抓取 Google Scholar 安全页面
我有一个这样的字符串:
我希望将其转换为:
我试过这个:
但是,会引发此错误: