“rcrawler”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

548 浏览

r - 如何在 R 中使用 Rcrawler 抓取多个网站？

我注意到我们在这里没有太多关于 Rcrawler 的问题，我认为它是一个很好的网站抓取工具。但是，我在告诉它抓取多个网站时遇到问题，因为它目前只能执行 3 个。请让我知道是否有人有此问题的经验。谢谢。

我已经尝试将所有 URL 放在一个列表/向量中，但它仍然没有这样做。这是我获取网站标题、描述和关键字的抓取代码。

如果我有 3 个以上的网站，它会给我这个错误：

r web-scraping rcrawler

2019-03-27T15:30:17.633

0 投票

0 回答

78 浏览

r - 在 R 中使用 ContentScraper 抓取网站时出现“NULL”和“NA”问题？

我有一个很长的网站列表，我想抓取它的title、description和keywords.

我正在使用ContentScraperfrom Rcrawlerpackage，并且我知道它可以正常工作，但是它无法执行某些 URL，只会生成下面的错误消息。无论如何它可以跳过那个特定的 URL 而不是停止整个执行？

Error: 'NULL' does not exist in current working directory

我看过这个，但我认为它没有任何答案。这是我正在使用的代码。任何意见是极大的赞赏。

r web-scraping rcrawler

2019-03-28T21:39:03.243

0 投票

1 回答

445 浏览

r - 网页抓取时如何避免“HTTP错误代码：429”？

我正在尝试从 Google 上抓取信息，但他们不喜欢它。该向量包含 2487 个 Google 站点，我想从中获取第一个结果的文本。

我试图创建一个循环来减慢这个过程，但我很不擅长。

b 是包含所有网站的值。首先，我试过：

但是后来，我尝试循环并减慢速度，但我不知道该怎么做。

从 55 日起，我得到的就是错误。关于如何避免它的任何想法？谢谢。

r rcrawler

2019-05-23T19:57:00.120

0 投票

1 回答

128 浏览

r - 有没有办法在不下载所有 HTML 的情况下运行 Rcrawler？

我在一个非常大的网站上运行 Rcrawler，因此需要很长时间（默认页面深度为 3 天以上）。有没有办法不下载所有 HTML 以加快处理速度？

我只需要存储在 INDEX 中的 URL。或者任何人都可以推荐另一种让 Rcrawler 运行得更快的方法吗？

我尝试以较小的页面深度（5）运行它，但它仍然需要永远。

r web-crawler rcrawler

2019-05-27T13:09:36.817

0 投票

0 回答

50 浏览

r - Rcrawler 不会收集所有页面

我想抓取网站。收集有关不同播客的信息。我对节目的标题、日期和摘要感兴趣。我的结果很混乱，而且有很多空白。

我尝试了多个网站。有些正在工作，但大多数都没有。我还在 ExtractCSSPath 和 ExtractXPath 参数之间切换。

生成的 excel 表包含我想要的一些信息，但大多数行都是空的。此外，仅显示第一页的信息。对于其他网站，此代码是成功的。

Rcrawler 是正确的软件包吗？

我想获得一个完整的 Excel 文件，包括所有日期、标题和摘要。

r rcrawler

2019-10-10T13:44:49.953

0 投票

1 回答

105 浏览

r - RCrawler：限制 RCrawler 收集的页面数量的方法？（不是爬行深度）

我正在使用 RCrawler 抓取约 300 个网站。网站的规模非常多样化：有些很小（几十页左右），有些很大（每个域 1000 页）。抓取后者非常耗时，并且 - 出于我的研究目的 - 当我已经有几百个页面时，更多页面的附加值会降低。

那么：如果收集到 x 个页面，有没有办法停止爬网？

我知道我可以使用 MaxDepth 限制爬行，但即使在 MaxDepth=2 时，这仍然是一个问题。MaxDepth=1 不适合我的研究。此外，我更愿意将 MaxDepth 保持在较高水平，这样较小的网站就会被完全抓取。

非常感谢！

r web-scraping rcrawler

2019-12-10T13:56:31.737

0 投票

1 回答

289 浏览

r - 如何从 2004 Wayback 机器站点上抓取此文本/为什么我运行错误的代码？

注意：我之前没有在这里问过问题，并且仍然不确定如何使它清晰易读，所以让我知道任何混淆或提示以使其更具可读性

我正在尝试从 2004/06 到 2004/09 Internet Archive 下载 makeoutclub.com 的用户信息（一个古怪的，现已不存在的社交网络，针对另类音乐迷，创建于 2000 年左右，使其成为Internet 上最古老的基于个人资料的社交网络）使用 r,* 特别是 rcrawler 包。到目前为止，我已经能够使用该包来获取数据框中的用户名和配置文件链接，使用 xpath 来识别我想要的元素，但不知何故，它不适用于配置文件的位置或兴趣部分，两者都只是文本，而不是 html 中的其他元素。对于我正在谈论的站点/数据的想法，这是我一直在给我的 xpath 发短信的页面：https://web.archive.org/web/20040805155243/http://www.makeoutclub。

我一直在使用 rcrawler 的 ContentScraper 函数测试我的 xpath 表达式，该函数从您需要抓取的站点的一个特定页面中提取与指定 xpath 匹配的一组元素。这是我的功能表达式，它标识了网站上的用户名和链接，并指定了我正在使用的特定页面，并返回一个向量：

testwaybacktable <- ContentScraper(Url = "https://web.archive.org/web/20040805155243/http://www.makeoutclub.com/03/profile/html/boys/2.html", XpathPatterns = c("//tr[1]/td/font/a[1]/@href", "//tr[1]/td/font/a[1]"), ManyPerPattern = TRUE)

这是坏的，我正在测试“位置”，最终返回一个空向量

testwaybacklocations <- ContentScraper(Url = "https://web.archive.org/web/20040805155243/http://www.makeoutclub.com/03/profile/html/boys/2.html", XpathPatterns = "//td/table/tbody/tr[1]/td/font/text()[2]", ManyPerPattern = TRUE)

还有一个不好的，这个在“interests”下寻找文字：

testwaybackint <- ContentScraper(Url = "https://web.archive.org/web/20040805155243/http://www.makeoutclub.com/03/profile/html/boys/2.html", XpathPatterns = "//td/table/tbody/tr[2]/td/font/text()", ManyPerPattern = TRUE)

当我尝试在 Chrome Inspect 中搜索它们时，我在这里使用的 xpath 表达式似乎选择了正确的元素，但程序似乎没有读取它们。我也试过为每个字段只选择一个元素，它仍然产生一个空向量。我知道这个工具可以读取这个网页中的文本——我测试了另一段随机文本——但不知何故，当我运行这个测试时，我什么也没得到。我的 xpath 表达式有问题吗？我应该使用不同的工具来做到这一点吗？谢谢你的耐心！

*这是一个数字人文项目，希望使用一些 nlp 来分析特别是关于性别和性的语言，与网站上最受欢迎乐队的歌词的一些 nlp 分析对话。

r xpath web-crawler rcrawler

2020-02-03T00:45:40.087

0 投票

1 回答

89 浏览

r - 如何使用 RCrawler 的 ExtractXpathPat 从 1 个 html 中提取多个项目？

我正在尝试使用 Rcrawler 获取博物馆藏品的标签和数据。我想我在使用ExtractXpathPat变量时犯了一个错误，但我不知道如何修复它。

我期望这样的输出：

但是输出文件在第三个位置重复标题：

HTML 如下所示：

我的方法如下所示：

目标说明 HTML 页面并不总是有相同的标签，有时它的标签没有相应的数据。有时数据在一个段落中，有时在无序列表中。

我的最终目标是创建一个 csv，其中包含网站的所有标签以及每行中的相应数据。

这个问题是收集标签和数据的第一步，然后我将使用它们来创建上面提到的 csv。

r xpath web-crawler rcrawler

2020-03-02T21:13:38.430

0 投票

1 回答

219 浏览

google-chrome - 网站抓取：邮递员和浏览器的响应不同

我想抓取网站https://www.ups.com/de/de/shipping/surcharges/fuel-surcharges.page。在那里，该公司将他们添加到发票金额中的所有燃油附加费提供给他们。我需要这些信息来正确计算一些成本。不幸的是，UPS 目前不愿意定期向我发送可读格式的数据。因此，我想到了自己爬网站并获取信息。

不幸的是，当使用邮递员或我的爬虫工具 rcrawler 时，对站点的 GET 请求会隐藏数据表。我如何才能像使用 chrome 浏览器一样欺骗网站返回所有数据？

例如，postman 中的标准层成本表如下所示（仅包含列的标题，但没有值）：

将其与浏览器结果进行比较显示了问题。

google-chrome web web-crawler postman rcrawler

2020-08-05T14:33:53.487

0 投票

0 回答

64 浏览

javascript - 在 Rcrawler 包中使用 ContentScraper 时出错

我正在尝试从这些页面中提取表格（https://spactrack.net/activespacs/和https://warrants.tech/）。我正在使用 Rcrawler 包来提取它们，但是当我运行下面的代码时它给我一个错误。

你能帮我提取这些表吗？谢谢你。

javascript html r web-scraping rcrawler

2020-10-30T02:56:15.433

问题标签 [rcrawler]

Reference