问题标签 [rcrawler]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 使用 Rvest 搜索 Google 新闻获取关键字
我想比较来自不同国家的新闻文章以了解特定关键字的使用情况。
我的想法是使用 RCrawler 抓取 Google 新闻:
RCrawler(website = “https://news.google.com/topics/CAAqIggKIhxDQkFTRHdvSkwyMHZNREZqY0hsNUVnSmtaU2dBUAE?hl=de&gl=DE&ceid=DE%3Ade”, MaxDepth = 5, Keywordfilter = c(“Keyword”), KeywordAccuracy = 99)
然后只计算我得到的结果。我不确定这是否是最好的方法,或者它是否正确,但我是 R 的新手,它是我目前能想到的最好的方法。
r - 网络爬虫并使用 R 以 txt 格式保存
我想txt
从这个链接中收集诗歌并保存,这里有一些提示:
- 用诗人的名字创建文件夹,
- 将红圈内的诗歌一一点击保存为txt格式的诗歌,
- 文件名应该是带有扩展名的诗歌标题
txt
。
我是 R 网络爬虫的新手,有人可以帮忙吗?我会感谢您的建议或帮助。
代码:
出去:
r - 使用 RCrawler 仅拉取带有表格的页面
我正在尝试使用 Rcrawler 从网站中提取信息,但我正在获取大量信息。老实说,我只关心上面有表格的页面。是否可以编写一个只拉取包含表格的页面的代码?
r - 如何让 Rcrawler 绕过网站延迟?
一些网站出于安全原因这样做(我假设):
在访问 website.com 之前检查您的浏览器。
这个过程是自动的。您的浏览器将很快重定向到您请求的内容。
请允许最多 5 秒...
有没有办法使用 RCrawler 绕过这个?RenderDelay 或 TimeOut 似乎都不适合我。我使用 PhantomJS。
r - 使用rvest循环页面和爬虫excel文件路径
对于此链接中的条目,我需要单击每个条目,然后单击页面左下方的 excel 文件路径的爬虫 url:
我如何使用 R 中的 web scrapy 包来实现这一点,例如rvest
等?提前真诚感谢。
首先,我的问题是如何正确设置html_nodes
以获取每个网页的 url?
更新:
当我运行时remDr$navigate(url)
:
r - 使用 RCrawler 抓取页面包含任何表
我尝试抓取包含网站中任何表格的页面。但我无法弄清楚,几乎没有涉及表的来源。请帮忙。谢谢。我不需要表格的内容,只需要网页。