问题标签 [google-scholar]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
4093 浏览

python - Parsing Google Scholar results with Python and BeautifulSoup

Given a typical keyword search in Google Scholar (see screenshot), I want to get a dictionary containing the title and url of each publication appearing on the page (eg. results = {'title': 'Cytosolic calcium regulates ion channels in the plasma membrane of Vicia faba guard cells', 'url': 'https://www.nature.com/articles/338427a0'}.

enter image description here

To retrieve the results page from Google Scholar, I am using the following code:

This code correctly returns the results page, in (very ugly) HTML format. However, I have not been been able to progress beyond this point, as I could not figure out how to use BeautifulSoup (to which I am not too much familiarized) to parse the results page and retrieve the data.

Notice that the issue is with the parsing of and extracting of data from the results page, not with Google Scholar itself, since the results page is correctly retrieved by the above code.

Could anyone please give a few hints? Thanks in advance!

0 投票
1 回答
839 浏览

python - 使用 Python 模块 Academic.py 的正确方法是什么?

我对 Python 和命令行都很陌生,但我正在尝试使用 Python 模块https://github.com/ckreibich/scholar.py/blob/master/README.md来获取某些来自谷歌学术的结果。经过一些更改(它找不到模块)认为我成功了import,至少我没有收到任何错误消息(但没有确认)。

但是接下来该怎么办?我尝试scholar.py -c 1 --author "albert einstein" --phrase "quantum theory"在 Python 内部和外部编写,但只收到错误消息,例如:

文件 "",第 1 行 Academic.py -c 1 --author "albert einstein" --phrase "quantum theory" ^ SyntaxError: invalid syntax

(^ 指向 1)。

使用模块的正确方法是什么?我错过了什么吗?

0 投票
0 回答
610 浏览

php - Google Scholar 检测到我想用 PHP 中的 curl 抓取它

我正在尝试在 PHP 中使用 curl 来抓取 Google Scholar。我已经为 curl 定义了一个用户代理,并且通过创建一个 cookie 目录启用了 CURLOPT_COOKIEFILE 和 CURLOPT_COOKIEJAR。然而,谷歌会自动检测到我正在抓取它。我认为这可能是因为 curl 无法解析 JavaScript 代码,但我不确定。

是否可以在 PHP 中使用 curl 抓取 Google Scholar?我需要使用无头浏览器吗?如果是,我如何配置无头浏览器以在 PHP 中使用 curl?我可以在 PHP 旁边使用不同的编程语言并以某种方式使它们一起工作以向用户提供图形输出吗?

提前致谢

0 投票
1 回答
226 浏览

r - 在 for 循环中结合谷歌学者 id 和 pubid

我正在使用 R 中的“学者”包。我想为我的研究小组创建一个共同作者的社交网络。我创建了一个数据框研究人员,如下所示:

然后我创建了一个 for 循环来获取每个研究人员的出版物:

要获得一份不错的共同作者列表,我需要使用以下语法:

例如:

我想遍历成员以获取数据框中的所有共同作者。我想我需要先嵌套循环,然后再遍历成员。我还需要在循环中添加暂停语句以避免 HTTP 503 错误。我的问题是如何构建一个执行此操作的循环?归根结底,我想要一个具有 pubid 和 authors 的数据框。我知道如何从中创建一个边缘列表。请帮忙。

0 投票
2 回答
1397 浏览

vpn - shadowsocks 打不开 https://scholar.google.com

shadowsocks 无法打开https://scholar.google.com 页面显示错误:Google sorry...</p>

很抱歉……</p>

…但是您的计算机或网络可能正在发送自动查询。为了保护我们的用户,我们现在无法处理您的请求。有关详细信息,请参阅 Google 帮助。

解决方法是:编辑VPS设置,vim /etc/hosts在ipv6下,在下面添加

我的 VPS 服务器是vultr,它可以工作。但不知道其他服务器是否正常?

0 投票
1 回答
786 浏览

php - 通过 simplehtmldom PHP 从谷歌学者个人资料中抓取出版物

我正在尝试从谷歌学者个人资料中抓取出版物,但我不知道如何从个人资料中抓取每个出版物,我知道个人资料页面可以显示的最大出版物是每页 100 个来自这个问题:

Google Scholar 个人资料抓取 PHP

我只想知道如何将 url 应用到我的 php 代码中,以便我可以从配置文件中获取每个出版物并将它们插入到数组中

我可以使用以下代码将每个出版物放在一个页面中的数组中:

我只想知道如何将此代码应用于多个页面以从谷歌学者个人资料中获取所有出版物

0 投票
1 回答
335 浏览

python - 使用 urllib2 而不是请求来抓取 Google Scholar

我有下面的简单脚本,它可以很好地从 Google Scholar 中获取文章列表以搜索感兴趣的术语。

但是,我想在远程服务器上将此脚本作为 CGI 应用程序运行,而无需访问控制台,因此我无法安装任何外部 Python 模块。(我设法通过将 bs4 目录复制到我的 cgi-bin 目录而无需借助 pip 或 easy_install 来“安装”BeautifulSoup,但由于其大量依赖项,此技巧不适用于请求。)

所以,我的问题是:是否可以使用内置的 urllib2 或 httplib Python 模块,而不是请求获取 Google Scholar 页面,然后将其传递给 BeautifulSoup?应该是,因为我在这里找到了一些代码,它只使用标准库和 BeautifulSoup 来抓取 Google Scholar,但它相当复杂。我宁愿实现一个更简单的解决方案,只是调整我的脚本以使用标准库而不是请求。

谁能给我一些帮助?

0 投票
1 回答
1691 浏览

html - 使用 Wordpress 将 Google Scholar 网页嵌入到其他网页时,iframe 失败

我有自己的个人作品集 ( modestomata.com ),我想在我的一些页面中包含一个带有其他网站的 iframe。例如,当我尝试将这个网站(http://www.vivaelsoftwarelibre.com)嵌入其中iframe时,效果很好:

但是,当我尝试在我的投资组合页面中嵌入我的个人 Google Scholar 页面 ( https://scholar.google.es/citations?user=v4UtSKUAAAAJ&hl=en ) 时,我得到一个空白 iframe。

那么,如何让 iframe 在其他页面中显示我的 Google Scholar 网页?

0 投票
1 回答
1228 浏览

r - 使用 R 检索期刊论文的引用

使用 R,我想获取引用科学期刊论文的文章列表。

我拥有的唯一信息是文章的标题,例如“使用叶绿素苯酚试剂进行蛋白质测量”。

有没有人可以通过制作一个我可以使用的可复制示例来帮助我?

这是我到目前为止所尝试的。

R 包fulltext似乎很有用,因为它允许检索链接到文章的 ID 列表。例如,我可以获得文章的 DOI:

同样,我可以通过from = "scopus"在函数中设置fulltext::ft_search(并包含 scopus API 密钥)来获取 scopus id。

如果使用 DOI,我可以使用 R 库获得文章的引用次数rcrossref

rscopus同样,如果我想使用 scopus id 而不是 DOI ,我可以使用 R 包。

不幸的是,这些信息对我来说还不够,因为我需要的是引用该论文的文章列表,而不是数量。

我在网上看到很多人在使用这个包scholar。但是,如果我理解正确的话,我需要文章的作者拥有一个谷歌学者 ID,并且我必须找到一种方法来检索这个 ID。所以它看起来不是一个可行的解决方案。

有谁知道如何解决这个问题?

0 投票
1 回答
1063 浏览

python - 如何在网上抓取谷歌学者每年每篇论文的引用次数?

我想绘制一个条形图,说明谷歌学者作者的 h-index 每年如何变化。为了计算这一点,我需要每年每篇论文的引用次数并计算每年的 h-index。

我设法在作者个人资料页面上获得了图表。以爱因斯坦的谷歌学者为例https://scholar.google.com/citations?user=qc6CJjYAAAAJ&hl=en,我得到了右边每年的被引次数图,但这是不正确的。我真正想要的是,当你点击一篇论文时,会有一个按年份划分的总引用数图表。我在 Python 中使用 BeautifulSoup 和 selenium 包。我现在最大的困难是:如果你查看一个作者的html代码,每篇论文的内容都是隐藏的,如何点击每篇论文并访问每篇论文的总引用数图表?

这是我为右边的图表所做的

单击 showmore 按钮以显示最大文章数:

尝试过的其他工具:R“学者”包,没有每年每篇论文的引用计数,只有每年的引用计数。Windows 应用程序:发布或消亡(同样的问题)。Scopus API(没有作为谷歌学者的作者所有文章的完整列表)