问题标签 [rcrawler]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何在 R 中使用 Rcrawler 抓取多个网站?
我注意到我们在这里没有太多关于 Rcrawler 的问题,我认为它是一个很好的网站抓取工具。但是,我在告诉它抓取多个网站时遇到问题,因为它目前只能执行 3 个。请让我知道是否有人有此问题的经验。谢谢。
我已经尝试将所有 URL 放在一个列表/向量中,但它仍然没有这样做。这是我获取网站标题、描述和关键字的抓取代码。
如果我有 3 个以上的网站,它会给我这个错误:
r - 在 R 中使用 ContentScraper 抓取网站时出现“NULL”和“NA”问题?
我有一个很长的网站列表,我想抓取它的title
、description
和keywords
.
我正在使用ContentScraper
from Rcrawler
package,并且我知道它可以正常工作,但是它无法执行某些 URL,只会生成下面的错误消息。无论如何它可以跳过那个特定的 URL 而不是停止整个执行?
Error: 'NULL' does not exist in current working directory
我看过这个,但我认为它没有任何答案。这是我正在使用的代码。任何意见是极大的赞赏。
r - 网页抓取时如何避免“HTTP错误代码:429”?
我正在尝试从 Google 上抓取信息,但他们不喜欢它。该向量包含 2487 个 Google 站点,我想从中获取第一个结果的文本。
我试图创建一个循环来减慢这个过程,但我很不擅长。
b 是包含所有网站的值。首先,我试过:
但是后来,我尝试循环并减慢速度,但我不知道该怎么做。
从 55 日起,我得到的就是错误。关于如何避免它的任何想法?谢谢。
r - 有没有办法在不下载所有 HTML 的情况下运行 Rcrawler?
我在一个非常大的网站上运行 Rcrawler,因此需要很长时间(默认页面深度为 3 天以上)。有没有办法不下载所有 HTML 以加快处理速度?
我只需要存储在 INDEX 中的 URL。或者任何人都可以推荐另一种让 Rcrawler 运行得更快的方法吗?
我尝试以较小的页面深度(5)运行它,但它仍然需要永远。
r - Rcrawler 不会收集所有页面
我想抓取网站。收集有关不同播客的信息。我对节目的标题、日期和摘要感兴趣。我的结果很混乱,而且有很多空白。
我尝试了多个网站。有些正在工作,但大多数都没有。我还在 ExtractCSSPath 和 ExtractXPath 参数之间切换。
生成的 excel 表包含我想要的一些信息,但大多数行都是空的。此外,仅显示第一页的信息。对于其他网站,此代码是成功的。
Rcrawler 是正确的软件包吗?
我想获得一个完整的 Excel 文件,包括所有日期、标题和摘要。
r - RCrawler:限制 RCrawler 收集的页面数量的方法?(不是爬行深度)
我正在使用 RCrawler 抓取约 300 个网站。网站的规模非常多样化:有些很小(几十页左右),有些很大(每个域 1000 页)。抓取后者非常耗时,并且 - 出于我的研究目的 - 当我已经有几百个页面时,更多页面的附加值会降低。
那么:如果收集到 x 个页面,有没有办法停止爬网?
我知道我可以使用 MaxDepth 限制爬行,但即使在 MaxDepth=2 时,这仍然是一个问题。MaxDepth=1 不适合我的研究。此外,我更愿意将 MaxDepth 保持在较高水平,这样较小的网站就会被完全抓取。
非常感谢!
r - 如何从 2004 Wayback 机器站点上抓取此文本/为什么我运行错误的代码?
注意:我之前没有在这里问过问题,并且仍然不确定如何使它清晰易读,所以让我知道任何混淆或提示以使其更具可读性
我正在尝试从 2004/06 到 2004/09 Internet Archive 下载 makeoutclub.com 的用户信息(一个古怪的,现已不存在的社交网络,针对另类音乐迷,创建于 2000 年左右,使其成为Internet 上最古老的基于个人资料的社交网络)使用 r,* 特别是 rcrawler 包。到目前为止,我已经能够使用该包来获取数据框中的用户名和配置文件链接,使用 xpath 来识别我想要的元素,但不知何故,它不适用于配置文件的位置或兴趣部分,两者都只是文本,而不是 html 中的其他元素。对于我正在谈论的站点/数据的想法,这是我一直在给我的 xpath 发短信的页面:https://web.archive.org/web/20040805155243/http://www.makeoutclub。
我一直在使用 rcrawler 的 ContentScraper 函数测试我的 xpath 表达式,该函数从您需要抓取的站点的一个特定页面中提取与指定 xpath 匹配的一组元素。这是我的功能表达式,它标识了网站上的用户名和链接,并指定了我正在使用的特定页面,并返回一个向量:
testwaybacktable <- ContentScraper(Url = "https://web.archive.org/web/20040805155243/http://www.makeoutclub.com/03/profile/html/boys/2.html", XpathPatterns = c("//tr[1]/td/font/a[1]/@href", "//tr[1]/td/font/a[1]"), ManyPerPattern = TRUE)
这是坏的,我正在测试“位置”,最终返回一个空向量
testwaybacklocations <- ContentScraper(Url = "https://web.archive.org/web/20040805155243/http://www.makeoutclub.com/03/profile/html/boys/2.html", XpathPatterns = "//td/table/tbody/tr[1]/td/font/text()[2]", ManyPerPattern = TRUE)
还有一个不好的,这个在“interests”下寻找文字:
testwaybackint <- ContentScraper(Url = "https://web.archive.org/web/20040805155243/http://www.makeoutclub.com/03/profile/html/boys/2.html", XpathPatterns = "//td/table/tbody/tr[2]/td/font/text()", ManyPerPattern = TRUE)
当我尝试在 Chrome Inspect 中搜索它们时,我在这里使用的 xpath 表达式似乎选择了正确的元素,但程序似乎没有读取它们。我也试过为每个字段只选择一个元素,它仍然产生一个空向量。我知道这个工具可以读取这个网页中的文本——我测试了另一段随机文本——但不知何故,当我运行这个测试时,我什么也没得到。我的 xpath 表达式有问题吗?我应该使用不同的工具来做到这一点吗?谢谢你的耐心!
*这是一个数字人文项目,希望使用一些 nlp 来分析特别是关于性别和性的语言,与网站上最受欢迎乐队的歌词的一些 nlp 分析对话。
r - 如何使用 RCrawler 的 ExtractXpathPat 从 1 个 html 中提取多个项目?
我正在尝试使用 Rcrawler 获取博物馆藏品的标签和数据。我想我在使用ExtractXpathPat
变量时犯了一个错误,但我不知道如何修复它。
我期望这样的输出:
但是输出文件在第三个位置重复标题:
HTML 如下所示:
我的方法如下所示:
目标 说明 HTML 页面并不总是有相同的标签,有时它的标签没有相应的数据。有时数据在一个段落中,有时在无序列表中。
我的最终目标是创建一个 csv,其中包含网站的所有标签以及每行中的相应数据。
这个问题是收集标签和数据的第一步,然后我将使用它们来创建上面提到的 csv。
google-chrome - 网站抓取:邮递员和浏览器的响应不同
我想抓取网站https://www.ups.com/de/de/shipping/surcharges/fuel-surcharges.page。在那里,该公司将他们添加到发票金额中的所有燃油附加费提供给他们。我需要这些信息来正确计算一些成本。不幸的是,UPS 目前不愿意定期向我发送可读格式的数据。因此,我想到了自己爬网站并获取信息。
不幸的是,当使用邮递员或我的爬虫工具 rcrawler 时,对站点的 GET 请求会隐藏数据表。我如何才能像使用 chrome 浏览器一样欺骗网站返回所有数据?
例如,postman 中的标准层成本表如下所示(仅包含列的标题,但没有值):
将其与浏览器结果进行比较显示了问题。
javascript - 在 Rcrawler 包中使用 ContentScraper 时出错
我正在尝试从这些页面中提取表格(https://spactrack.net/activespacs/和https://warrants.tech/)。我正在使用 Rcrawler 包来提取它们,但是当我运行下面的代码时它给我一个错误。
你能帮我提取这些表吗?谢谢你。