问题标签 [google-scholar]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
119 浏览

python - 获取首次发表的年份 Google Scholar

我正在使用 bs4 和 urllib 从 Google Scholar 抓取数据。我试图获得文章发表的第一年。例如,我试图从这个页面获取 1996 年。这可以从条形图中读取,但只能在单击条形图后读取。我编写了以下代码,但它会在单击条形图之前打印出可见的年份。

0 投票
0 回答
115 浏览

python - 从谷歌学术档案中确定国家

我目前正在从事一个从 Google Scholar 抓取数据的项目。我希望抓取每个配置文件的居住国家/地区,但是没有明确列出。例如,鉴于列出的电子邮件地址来自 ucl.ac.uk,因此我希望从这个页面获得 UK。再举一个例子,从这个页面我想给荷兰,因为电子邮件地址来自 vumc.nl。但是,如果我们从 URL TLD 中查看此配置文件,我们无法确定国家/地区。

到目前为止,我已经编写了这段代码来捕获域:

那么,我如何才能从用户的 Google Scholar 个人资料中以相当高的准确度确定他们的国家/地区?

0 投票
1 回答
198 浏览

java - 从 Google Scholar 下载参考文献列表

我已将研究论文的参考文献存储在一个列表中(如下所示):我想从谷歌学者那里下载它们。我已经通过在下面给出它的 url 成功下载了一篇论文,我现在需要做的是,因为我已经将研究论文中的所有参考文献都存储在列表中(列表中有 15 个参考文献,这意味着其中至少有 5 个在pdf),我想在 Google Scholar 上运行该列表并下载可用的 pdf 参考文献。如果pdf不能参考,一定要显示“Pdf is not avaialable”:我已经分享了下载单篇的代码,不知道怎么修改代码列表下载多篇论文。

0 投票
0 回答
302 浏览

python - 值错误:在 Google Scholar 中解析数据时读取已关闭文件

我是一名学习生物的非 cs 学生,但我正在研究 python 数据科学,目的是为了网页抓取 Google Scholar。我创建了一个最初可以工作的程序,但不知何故它随机停止工作并给了我一个错误值。我认为这可能与谷歌严格限制机器人搜索他们的网站有关。任何建议和补救措施都会有所帮助!我正在使用 Jupyter Notebook ipython 和 Python3。

代码:

错误:ValueError:读取已关闭文件

0 投票
1 回答
140 浏览

android - 如何通过 Android Webview 访问谷歌学者

我当前的 Android 应用程序使用 WebView 来允许用户搜索科学期刊(文章)。

当我尝试浏览 Google Scholar 时,我收到一个屏幕,上面写着

automated query”是什么意思?我的 webView 只是尝试加载 Scholar URL 为什么谷歌用户需要保护它?

这是否意味着永远无法通过 Android WebView 访问 Google Scholar?

有什么方法可以通过 Android Webview 访问 Google Scholar?

0 投票
1 回答
1817 浏览

web-scraping - 使用 url 抓取大量 Google Scholar 页面

我正在尝试使用 BeautifulSoup 从 Google 学者的作者那里获取所有出版物的完整作者列表。由于作者的主页只有每篇论文的作者列表,我必须打开论文的链接才能获得完整列表。结果,我每隔几次尝试就会遇到验证码。

有没有办法避免验证码(例如每次请求后暂停 3 秒)?或者制作原始的 Google Scholar 个人资料页面以显示完整的作者列表?

0 投票
1 回答
244 浏览

r - 使用 R Studio 从 google 学者中提取 DOI 列表的引用次数

我正在 R Studio 中开发一个小程序,它应该能够从谷歌学者的特定科学论文中提取 DOI 列表的引用次数。到目前为止,我的代码看起来像这样(我使用了一个测试 DOI 向量,我的真实向量包含大约 450 个 DOI)。

主要问题是包含从 HTML 代码中获取正确部分的部分,因为引用的数量似乎没有出现在同一个位置。我试图通过采用不同的 xpath 来提高获取信息的机会(在我的示例中为 citnum + citnum2)来避免该问题。但我不认为这是最好的方法。也许你们中的一些人可能有任何想法?

0 投票
1 回答
61 浏览

bash - 自动查询|作者引文

谢谢你让我在这里问我的问题。

一些背景:在学术界和生活的各个领域一样,都有“超级明星”。这些超级巨星广受认可,他们的出版物也经常被引用。我问自己的问题是,他们经常被引用是因为他们的论文(仍然)很出色,还是仅仅因为他们众所周知?

想想推文。数以百万计的人阅读 T 先生(想想 T 代表什么)的推文,但几乎没有人阅读你邻居精心编写、聪明而诙谐的推文。因此,在这种特殊情况下,喜欢的次数(“引文”)不一定与质量相对应,即使在某个时候(T 先生职业生涯的开始)它可能具有。学术界也一样吗?

现在,为了回答我的问题,我想查询作者并制作他们的出版物和相应引用的时间序列。
问题是,我可以自动执行此操作吗?因此,制作一个包含 author1、author2、... 的 txt 文件 authors.txt 并为每个人查询例如他们的 Google Scholar Profile。如果有人对支持自动化的替代数据源有建议,那也将不胜感激!

到目前为止,我偶然发现了“Publish or Perish”,这是一个很棒的工具,对于一个作者来说,它完全符合我的要求。但它不允许自动查询。联系这个伟大程序背后的开发人员得到了答案:“很可能编写自己的脚本来从所有数据源收集自动化数据,尤其是那些具有 API 的数据源,但 PoP 并不能促进这一点。”
有谁知道如何做到这一点?我有例如 bash 的基本知识,所以我的第一个想法是使用 wget,但 authorA 的 URL 似乎是以随机方式编码的,所以它不是 googlescholar.com/authoraA/... 或类似的东西。

非常感谢!

0 投票
0 回答
1072 浏览

html - 使用 RSelenium 进行网页抓取 Google Scholar

我正在尝试使用 Google Scholar 提供的信息开发一个学术网络。其中一部分涉及从单击单个学者的文章标题产生的弹出窗口(实际上不确定它是哪种窗口 - 它似乎不是常规窗口或 iframe)中抓取数据页。

我一直在使用 RSelenium 来执行此任务。下面是迄今为止我为与 Google Scholar 交互而开发的代码。

这就是我卡住的地方。使用 Chrome 的开发者工具查看底层网页,我可以看到我感兴趣的第一个信息,文章的作者,它与以下 HTML 相关联:

这表明我应该能够执行以下操作:

但是,此解决方案似乎不起作用;它返回值“NULL”。

我希望有人有一个基于 R 的解决方案,因为我对 Java Script 知之甚少。

最后,如果从以下代码中搜索结果文本(解析我当前所在的页面):

我找不到与“gsc_vcd_title”关联的 CSS 类,这表明我感兴趣的页面有一个我还没有完全弄清楚的更复杂的结构。

您的任何见解都将受到欢迎。谢谢!

0 投票
2 回答
657 浏览

php - Google Scholar 个人资料抓取 PHP

我想用 SimpleHtmlDom 从谷歌学者个人资料中删除出版物。

我有用于抓取项目的脚本,但问题是,我只能抓取显示的项目。
当我使用这样的网址时

$html->load_file(" http://scholar.google.se/citations?user=Sx4G9YgAAAAJ ");

仅显示了 20 个项目。我可以在更改网址时增加数字

$html->load_file(" https://scholar.google.se/citations?user=Sx4G9YgAAAAJ&hl=&view_op=list_works&pagesize=100 ");

通过设置“pagesize”属性。但问题是,100 是出版物的最大数量,网页能够显示什么。有什么方法可以从个人资料中删除所有项目吗?