问题标签 [rcrawler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
548 浏览

r - 如何在 R 中使用 Rcrawler 抓取多个网站?

我注意到我们在这里没有太多关于 Rcrawler 的问题,我认为它是一个很好的网站抓取工具。但是,我在告诉它抓取多个网站时遇到问题,因为它目前只能执行 3 个。请让我知道是否有人有此问题的经验。谢谢。

我已经尝试将所有 URL 放在一个列表/向量中,但它仍然没有这样做。这是我获取网站标题、描述和关键字的抓取代码。

如果我有 3 个以上的网站,它会给我这个错误:

0 投票
0 回答
78 浏览

r - 在 R 中使用 ContentScraper 抓取网站时出现“NULL”和“NA”问题?

我有一个很长的网站列表,我想抓取它的titledescriptionkeywords.

我正在使用ContentScraperfrom Rcrawlerpackage,并且我知道它可以正常工作,但是它无法执行某些 URL,只会生成下面的错误消息。无论如何它可以跳过那个特定的 URL 而不是停止整个执行?

Error: 'NULL' does not exist in current working directory

我看过这个,但我认为它没有任何答案。这是我正在使用的代码。任何意见是极大的赞赏。

0 投票
1 回答
445 浏览

r - 网页抓取时如何避免“HTTP错误代码:429”?

我正在尝试从 Google 上抓取信息,但他们不喜欢它。该向量包含 2487 个 Google 站点,我想从中获取第一个结果的文本。

我试图创建一个循环来减慢这个过程,但我很不擅长。

b 是包含所有网站的值。首先,我试过:

但是后来,我尝试循环并减慢速度,但我不知道该怎么做。

从 55 日起,我得到的就是错误。关于如何避免它的任何想法?谢谢。

0 投票
1 回答
128 浏览

r - 有没有办法在不下载所有 HTML 的情况下运行 Rcrawler?

我在一个非常大的网站上运行 Rcrawler,因此需要很长时间(默认页面深度为 3 天以上)。有没有办法不下载所有 HTML 以加快处理速度?

我只需要存储在 INDEX 中的 URL。或者任何人都可以推荐另一种让 Rcrawler 运行得更快的方法吗?

我尝试以较小的页面深度(5)运行它,但它仍然需要永远。

0 投票
0 回答
50 浏览

r - Rcrawler 不会收集所有页面

我想抓取网站。收集有关不同播客的信息。我对节目的标题、日期和摘要感兴趣。我的结果很混乱,而且有很多空白。

我尝试了多个网站。有些正在工作,但大多数都没有。我还在 ExtractCSSPath 和 ExtractXPath 参数之间切换。

生成的 excel 表包含我想要的一些信息,但大多数行都是空的。此外,仅显示第一页的信息。对于其他网站,此代码是成功的。

Rcrawler 是正确的软件包吗?

我想获得一个完整的 Excel 文件,包括所有日期、标题和摘要。

0 投票
1 回答
105 浏览

r - RCrawler:限制 RCrawler 收集的页面数量的方法?(不是爬行深度)

我正在使用 RCrawler 抓取约 300 个网站。网站的规模非常多样化:有些很小(几十页左右),有些很大(每个域 1000 页)。抓取后者非常耗时,并且 - 出于我的研究目的 - 当我已经有几百个页面时,更多页面的附加值会降低。

那么:如果收集到 x 个页面,有没有办法停止爬网?

我知道我可以使用 MaxDepth 限制爬行,但即使在 MaxDepth=2 时,这仍然是一个问题。MaxDepth=1 不适合我的研究。此外,我更愿意将 MaxDepth 保持在较高水平,这样较小的网站就会被完全抓取。

非常感谢!

0 投票
1 回答
289 浏览

r - 如何从 2004 Wayback 机器站点上抓取此文本/为什么我运行错误的代码?

注意:我之前没有在这里问过问题,并且仍然不确定如何使它清晰易读,所以让我知道任何混淆或提示以使其更具可读性

我正在尝试从 2004/06 到 2004/09 Internet Archive 下载 makeoutclub.com 的用户信息(一个古怪的,现已不存在的社交网络,针对另类音乐迷,创建于 2000 年左右,使其成为Internet 上最古老的基于个人资料的社交网络)使用 r,* 特别是 rcrawler 包。到目前为止,我已经能够使用该包来获取数据框中的用户名和配置文件链接,使用 xpath 来识别我想要的元素,但不知何故,它不适用于配置文件的位置或兴趣部分,两者都只是文本,而不是 html 中的其他元素。对于我正在谈论的站点/数据的想法,这是我一直在给我的 xpath 发短信的页面:https://web.archive.org/web/20040805155243/http://www.makeoutclub。

我一直在使用 rcrawler 的 ContentScraper 函数测试我的 xpath 表达式,该函数从您需要抓取的站点的一个特定页面中提取与指定 xpath 匹配的一组元素。这是我的功能表达式,它标识了网站上的用户名和链接,并指定了我正在使用的特定页面,并返回一个向量:

testwaybacktable <- ContentScraper(Url = "https://web.archive.org/web/20040805155243/http://www.makeoutclub.com/03/profile/html/boys/2.html", XpathPatterns = c("//tr[1]/td/font/a[1]/@href", "//tr[1]/td/font/a[1]"), ManyPerPattern = TRUE)

这是坏的,我正在测试“位置”,最终返回一个空向量

testwaybacklocations <- ContentScraper(Url = "https://web.archive.org/web/20040805155243/http://www.makeoutclub.com/03/profile/html/boys/2.html", XpathPatterns = "//td/table/tbody/tr[1]/td/font/text()[2]", ManyPerPattern = TRUE)

还有一个不好的,这个在“interests”下寻找文字:

testwaybackint <- ContentScraper(Url = "https://web.archive.org/web/20040805155243/http://www.makeoutclub.com/03/profile/html/boys/2.html", XpathPatterns = "//td/table/tbody/tr[2]/td/font/text()", ManyPerPattern = TRUE)

当我尝试在 Chrome Inspect 中搜索它们时,我在这里使用的 xpath 表达式似乎选择了正确的元素,但程序似乎没有读取它们。我也试过为每个字段只选择一个元素,它仍然产生一个空向量。我知道这个工具可以读取这个网页中的文本——我测试了另一段随机文本——但不知何故,当我运行这个测试时,我什么也没得到。我的 xpath 表达式有问题吗?我应该使用不同的工具来做到这一点吗?谢谢你的耐心!

*这是一个数字人文项目,希望使用一些 nlp 来分析特别是关于性别和性的语言,与网站上最受欢迎乐队的歌词的一些 nlp 分析对话。

0 投票
1 回答
89 浏览

r - 如何使用 RCrawler 的 ExtractXpathPat 从 1 个 html 中提取多个项目?

我正在尝试使用 Rcrawler 获取博物馆藏品的标签和数据。我想我在使用ExtractXpathPat变量时犯了一个错误,但我不知道如何修复它。

我期望这样的输出:

但是输出文件在第三个位置重复标题:

HTML 如下所示:

我的方法如下所示:

目标 说明 HTML 页面并不总是有相同的标签,有时它的标签没有相应的数据。有时数据在一个段落中,有时在无序列表中。

我的最终目标是创建一个 csv,其中包含网站的所有标签以及每行中的相应数据。

这个问题是收集标签和数据的第一步,然后我将使用它们来创建上面提到的 csv。

0 投票
1 回答
219 浏览

google-chrome - 网站抓取:邮递员和浏览器的响应不同

我想抓取网站https://www.ups.com/de/de/shipping/surcharges/fuel-surcharges.page。在那里,该公司将他们添加到发票金额中的所有燃油附加费提供给他们。我需要这些信息来正确计算一些成本。不幸的是,UPS 目前不愿意定期向我发送可读格式的数据。因此,我想到了自己爬网站并获取信息。

不幸的是,当使用邮递员或我的爬虫工具 rcrawler 时,对站点的 GET 请求会隐藏数据表。我如何才能像使用 chrome 浏览器一样欺骗网站返回所有数据?

例如,postman 中的标准层成本表如下所示(仅包含列的标题,但没有值):

将其与浏览器结果进行比较显示了问题。

0 投票
0 回答
64 浏览

javascript - 在 Rcrawler 包中使用 ContentScraper 时出错

我正在尝试从这些页面中提取表格(https://spactrack.net/activespacs/https://warrants.tech/)。我正在使用 Rcrawler 包来提取它们,但是当我运行下面的代码时它给我一个错误。

你能帮我提取这些表吗?谢谢你。