问题标签 [google-scholar]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 获取首次发表的年份 Google Scholar
我正在使用 bs4 和 urllib 从 Google Scholar 抓取数据。我试图获得文章发表的第一年。例如,我试图从这个页面获取 1996 年。这可以从条形图中读取,但只能在单击条形图后读取。我编写了以下代码,但它会在单击条形图之前打印出可见的年份。
python - 从谷歌学术档案中确定国家
我目前正在从事一个从 Google Scholar 抓取数据的项目。我希望抓取每个配置文件的居住国家/地区,但是没有明确列出。例如,鉴于列出的电子邮件地址来自 ucl.ac.uk,因此我希望从这个页面获得 UK。再举一个例子,从这个页面我想给荷兰,因为电子邮件地址来自 vumc.nl。但是,如果我们从 URL TLD 中查看此配置文件,我们无法确定国家/地区。
到目前为止,我已经编写了这段代码来捕获域:
那么,我如何才能从用户的 Google Scholar 个人资料中以相当高的准确度确定他们的国家/地区?
java - 从 Google Scholar 下载参考文献列表
我已将研究论文的参考文献存储在一个列表中(如下所示):我想从谷歌学者那里下载它们。我已经通过在下面给出它的 url 成功下载了一篇论文,我现在需要做的是,因为我已经将研究论文中的所有参考文献都存储在列表中(列表中有 15 个参考文献,这意味着其中至少有 5 个在pdf),我想在 Google Scholar 上运行该列表并下载可用的 pdf 参考文献。如果pdf不能参考,一定要显示“Pdf is not avaialable”:我已经分享了下载单篇的代码,不知道怎么修改代码列表下载多篇论文。
python - 值错误:在 Google Scholar 中解析数据时读取已关闭文件
我是一名学习生物的非 cs 学生,但我正在研究 python 数据科学,目的是为了网页抓取 Google Scholar。我创建了一个最初可以工作的程序,但不知何故它随机停止工作并给了我一个错误值。我认为这可能与谷歌严格限制机器人搜索他们的网站有关。任何建议和补救措施都会有所帮助!我正在使用 Jupyter Notebook ipython 和 Python3。
代码:
错误:ValueError:读取已关闭文件
android - 如何通过 Android Webview 访问谷歌学者
我当前的 Android 应用程序使用 WebView 来允许用户搜索科学期刊(文章)。
当我尝试浏览 Google Scholar 时,我收到一个屏幕,上面写着
“ automated query
”是什么意思?我的 webView 只是尝试加载 Scholar URL 为什么谷歌用户需要保护它?
这是否意味着永远无法通过 Android WebView 访问 Google Scholar?
有什么方法可以通过 Android Webview 访问 Google Scholar?
web-scraping - 使用 url 抓取大量 Google Scholar 页面
我正在尝试使用 BeautifulSoup 从 Google 学者的作者那里获取所有出版物的完整作者列表。由于作者的主页只有每篇论文的作者列表,我必须打开论文的链接才能获得完整列表。结果,我每隔几次尝试就会遇到验证码。
有没有办法避免验证码(例如每次请求后暂停 3 秒)?或者制作原始的 Google Scholar 个人资料页面以显示完整的作者列表?
r - 使用 R Studio 从 google 学者中提取 DOI 列表的引用次数
我正在 R Studio 中开发一个小程序,它应该能够从谷歌学者的特定科学论文中提取 DOI 列表的引用次数。到目前为止,我的代码看起来像这样(我使用了一个测试 DOI 向量,我的真实向量包含大约 450 个 DOI)。
主要问题是包含从 HTML 代码中获取正确部分的部分,因为引用的数量似乎没有出现在同一个位置。我试图通过采用不同的 xpath 来提高获取信息的机会(在我的示例中为 citnum + citnum2)来避免该问题。但我不认为这是最好的方法。也许你们中的一些人可能有任何想法?
bash - 自动查询|作者引文
谢谢你让我在这里问我的问题。
一些背景:在学术界和生活的各个领域一样,都有“超级明星”。这些超级巨星广受认可,他们的出版物也经常被引用。我问自己的问题是,他们经常被引用是因为他们的论文(仍然)很出色,还是仅仅因为他们众所周知?
想想推文。数以百万计的人阅读 T 先生(想想 T 代表什么)的推文,但几乎没有人阅读你邻居精心编写、聪明而诙谐的推文。因此,在这种特殊情况下,喜欢的次数(“引文”)不一定与质量相对应,即使在某个时候(T 先生职业生涯的开始)它可能具有。学术界也一样吗?
现在,为了回答我的问题,我想查询作者并制作他们的出版物和相应引用的时间序列。
问题是,我可以自动执行此操作吗?因此,制作一个包含 author1、author2、... 的 txt 文件 authors.txt 并为每个人查询例如他们的 Google Scholar Profile。如果有人对支持自动化的替代数据源有建议,那也将不胜感激!
到目前为止,我偶然发现了“Publish or Perish”,这是一个很棒的工具,对于一个作者来说,它完全符合我的要求。但它不允许自动查询。联系这个伟大程序背后的开发人员得到了答案:“很可能编写自己的脚本来从所有数据源收集自动化数据,尤其是那些具有 API 的数据源,但 PoP 并不能促进这一点。”
有谁知道如何做到这一点?我有例如 bash 的基本知识,所以我的第一个想法是使用 wget,但 authorA 的 URL 似乎是以随机方式编码的,所以它不是 googlescholar.com/authoraA/... 或类似的东西。
非常感谢!
html - 使用 RSelenium 进行网页抓取 Google Scholar
我正在尝试使用 Google Scholar 提供的信息开发一个学术网络。其中一部分涉及从单击单个学者的文章标题产生的弹出窗口(实际上不确定它是哪种窗口 - 它似乎不是常规窗口或 iframe)中抓取数据页。
我一直在使用 RSelenium 来执行此任务。下面是迄今为止我为与 Google Scholar 交互而开发的代码。
这就是我卡住的地方。使用 Chrome 的开发者工具查看底层网页,我可以看到我感兴趣的第一个信息,文章的作者,它与以下 HTML 相关联:
这表明我应该能够执行以下操作:
但是,此解决方案似乎不起作用;它返回值“NULL”。
我希望有人有一个基于 R 的解决方案,因为我对 Java Script 知之甚少。
最后,如果从以下代码中搜索结果文本(解析我当前所在的页面):
我找不到与“gsc_vcd_title”关联的 CSS 类,这表明我感兴趣的页面有一个我还没有完全弄清楚的更复杂的结构。
您的任何见解都将受到欢迎。谢谢!
php - Google Scholar 个人资料抓取 PHP
我想用 SimpleHtmlDom 从谷歌学者个人资料中删除出版物。
我有用于抓取项目的脚本,但问题是,我只能抓取显示的项目。
当我使用这样的网址时
$html->load_file(" http://scholar.google.se/citations?user=Sx4G9YgAAAAJ ");
仅显示了 20 个项目。我可以在更改网址时增加数字
$html->load_file(" https://scholar.google.se/citations?user=Sx4G9YgAAAAJ&hl=&view_op=list_works&pagesize=100 ");
通过设置“pagesize”属性。但问题是,100 是出版物的最大数量,网页能够显示什么。有什么方法可以从个人资料中删除所有项目吗?