“google-scholar”的相关标签问题

0 投票

2 回答

119 浏览

python - 获取首次发表的年份 Google Scholar

我正在使用 bs4 和 urllib 从 Google Scholar 抓取数据。我试图获得文章发表的第一年。例如，我试图从这个页面获取 1996 年。这可以从条形图中读取，但只能在单击条形图后读取。我编写了以下代码，但它会在单击条形图之前打印出可见的年份。

2016-12-27T16:26:05.053

0 投票

0 回答

115 浏览

python - 从谷歌学术档案中确定国家

我目前正在从事一个从 Google Scholar 抓取数据的项目。我希望抓取每个配置文件的居住国家/地区，但是没有明确列出。例如，鉴于列出的电子邮件地址来自 ucl.ac.uk，因此我希望从这个页面获得 UK。再举一个例子，从这个页面我想给荷兰，因为电子邮件地址来自 vumc.nl。但是，如果我们从 URL TLD 中查看此配置文件，我们无法确定国家/地区。

到目前为止，我已经编写了这段代码来捕获域：

那么，我如何才能从用户的 Google Scholar 个人资料中以相当高的准确度确定他们的国家/地区？

python location country tld google-scholar

2016-12-27T20:02:59.883

0 投票

1 回答

198 浏览

java - 从 Google Scholar 下载参考文献列表

我已将研究论文的参考文献存储在一个列表中（如下所示）：我想从谷歌学者那里下载它们。我已经通过在下面给出它的 url 成功下载了一篇论文，我现在需要做的是，因为我已经将研究论文中的所有参考文献都存储在列表中（列表中有 15 个参考文献，这意味着其中至少有 5 个在pdf），我想在 Google Scholar 上运行该列表并下载可用的 pdf 参考文献。如果pdf不能参考，一定要显示“Pdf is not avaialable”：我已经分享了下载单篇的代码，不知道怎么修改代码列表下载多篇论文。

java web-scraping google-scholar

2017-06-13T11:19:14.883

0 投票

0 回答

302 浏览

python - 值错误：在 Google Scholar 中解析数据时读取已关闭文件

我是一名学习生物的非 cs 学生，但我正在研究 python 数据科学，目的是为了网页抓取 Google Scholar。我创建了一个最初可以工作的程序，但不知何故它随机停止工作并给了我一个错误值。我认为这可能与谷歌严格限制机器人搜索他们的网站有关。任何建议和补救措施都会有所帮助！我正在使用 Jupyter Notebook ipython 和 Python3。

代码：

错误：ValueError：读取已关闭文件

python web-scraping jupyter google-scholar

2017-06-26T22:55:53.177

0 投票

1 回答

140 浏览

android - 如何通过 Android Webview 访问谷歌学者

我当前的 Android 应用程序使用 WebView 来允许用户搜索科学期刊（文章）。

当我尝试浏览 Google Scholar 时，我收到一个屏幕，上面写着

“ automated query”是什么意思？我的 webView 只是尝试加载 Scholar URL 为什么谷歌用户需要保护它？

这是否意味着永远无法通过 Android WebView 访问 Google Scholar？

有什么方法可以通过 Android Webview 访问 Google Scholar？

android android-webview google-scholar

2017-07-19T08:11:49.203

0 投票

1 回答

1817 浏览

web-scraping - 使用 url 抓取大量 Google Scholar 页面

我正在尝试使用 BeautifulSoup 从 Google 学者的作者那里获取所有出版物的完整作者列表。由于作者的主页只有每篇论文的作者列表，我必须打开论文的链接才能获得完整列表。结果，我每隔几次尝试就会遇到验证码。

有没有办法避免验证码（例如每次请求后暂停 3 秒）？或者制作原始的 Google Scholar 个人资料页面以显示完整的作者列表？

web-scraping beautifulsoup captcha google-scholar

2017-07-19T14:15:47.220

0 投票

1 回答

244 浏览

r - 使用 R Studio 从 google 学者中提取 DOI 列表的引用次数

我正在 R Studio 中开发一个小程序，它应该能够从谷歌学者的特定科学论文中提取 DOI 列表的引用次数。到目前为止，我的代码看起来像这样（我使用了一个测试 DOI 向量，我的真实向量包含大约 450 个 DOI）。

主要问题是包含从 HTML 代码中获取正确部分的部分，因为引用的数量似乎没有出现在同一个位置。我试图通过采用不同的 xpath 来提高获取信息的机会（在我的示例中为 citnum + citnum2）来避免该问题。但我不认为这是最好的方法。也许你们中的一些人可能有任何想法？

r rstudio rvest citations google-scholar

2018-02-02T21:50:44.450

0 投票

1 回答

61 浏览

bash - 自动查询|作者引文

谢谢你让我在这里问我的问题。

一些背景：在学术界和生活的各个领域一样，都有“超级明星”。这些超级巨星广受认可，他们的出版物也经常被引用。我问自己的问题是，他们经常被引用是因为他们的论文（仍然）很出色，还是仅仅因为他们众所周知？

想想推文。数以百万计的人阅读 T 先生（想想 T 代表什么）的推文，但几乎没有人阅读你邻居精心编写、聪明而诙谐的推文。因此，在这种特殊情况下，喜欢的次数（“引文”）不一定与质量相对应，即使在某个时候（T 先生职业生涯的开始）它可能具有。学术界也一样吗？

现在，为了回答我的问题，我想查询作者并制作他们的出版物和相应引用的时间序列。
问题是，我可以自动执行此操作吗？因此，制作一个包含 author1、author2、... 的 txt 文件 authors.txt 并为每个人查询例如他们的 Google Scholar Profile。如果有人对支持自动化的替代数据源有建议，那也将不胜感激！

到目前为止，我偶然发现了“Publish or Perish”，这是一个很棒的工具，对于一个作者来说，它完全符合我的要求。但它不允许自动查询。联系这个伟大程序背后的开发人员得到了答案：“很可能编写自己的脚本来从所有数据源收集自动化数据，尤其是那些具有 API 的数据源，但 PoP 并不能促进这一点。”
有谁知道如何做到这一点？我有例如 bash 的基本知识，所以我的第一个想法是使用 wget，但 authorA 的 URL 似乎是以随机方式编码的，所以它不是 googlescholar.com/authoraA/... 或类似的东西。

非常感谢！

bash shell google-scholar google-profiles-api

2018-02-04T16:50:18.247

0 投票

0 回答

1072 浏览

html - 使用 RSelenium 进行网页抓取 Google Scholar

我正在尝试使用 Google Scholar 提供的信息开发一个学术网络。其中一部分涉及从单击单个学者的文章标题产生的弹出窗口（实际上不确定它是哪种窗口 - 它似乎不是常规窗口或 iframe）中抓取数据页。

我一直在使用 RSelenium 来执行此任务。下面是迄今为止我为与 Google Scholar 交互而开发的代码。

这就是我卡住的地方。使用 Chrome 的开发者工具查看底层网页，我可以看到我感兴趣的第一个信息，文章的作者，它与以下 HTML 相关联：

这表明我应该能够执行以下操作：

但是，此解决方案似乎不起作用；它返回值“NULL”。

我希望有人有一个基于 R 的解决方案，因为我对 Java Script 知之甚少。

最后，如果从以下代码中搜索结果文本（解析我当前所在的页面）：

我找不到与“gsc_vcd_title”关联的 CSS 类，这表明我感兴趣的页面有一个我还没有完全弄清楚的更复杂的结构。

您的任何见解都将受到欢迎。谢谢！

html r web-scraping rselenium google-scholar

2018-02-08T02:01:30.777

0 投票

2 回答

657 浏览

php - Google Scholar 个人资料抓取 PHP

我想用 SimpleHtmlDom 从谷歌学者个人资料中删除出版物。

我有用于抓取项目的脚本，但问题是，我只能抓取显示的项目。
当我使用这样的网址时

$html->load_file(" http://scholar.google.se/citations?user=Sx4G9YgAAAAJ ");

仅显示了 20 个项目。我可以在更改网址时增加数字

$html->load_file(" https://scholar.google.se/citations?user=Sx4G9YgAAAAJ&hl=&view_op=list_works&pagesize=100 ");

通过设置“pagesize”属性。但问题是，100 是出版物的最大数量，网页能够显示什么。有什么方法可以从个人资料中删除所有项目吗？

php web-scraping simple-html-dom google-scholar

2018-03-14T16:56:48.600

问题标签 [google-scholar]

Reference