问题标签 [data-harvest]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

24 问题

0 投票

1 回答

272 浏览

r - 链接重定向问题 - 使用 Rvest 在 R 中进行 Web Scraping

当我使用工具从新闻网站上抓取链接时Rvest，我经常偶然发现重定向到另一个链接的链接。在这些情况下，我只能抓取第一个链接，而第二个链接是实际包含数据的链接。例如：

有没有办法使用第一个链接获得第二个链接？该网站只保留第一个。

r redirect web-scraping rvest data-harvest

2020-01-22T22:33:40.990

0 投票

1 回答

28 浏览

python-3.x - 无法提取网页内容（href 标签）我使用的是 python 3.7

无法从“https://www.theaic.co.uk/aic/analysis-investment-companies”中刮取@href 标签我正在使用 Python 3.7、scrapy、splash 并且也尝试使用 selenium 但没有用。

python-3.x web-scraping scrapy data-extraction data-harvest

2020-09-13T05:02:24.100

0 投票

2 回答

144 浏览

r - 使用 R 进行网页抓取：具有多个下拉菜单

我正在尝试使用 4 个下拉菜单从以下网站抓取数据 - 单击每个下拉菜单后，它们会显示一个我想要从中抓取数据的表格。我想结合所有下拉菜单中所有表格的信息。

我正在使用RSelenium包但是因为我对网络抓取非常陌生，我无法理解如何使用四个可用选项进行循环以获得决赛桌。

https://hindi.iocl.com/lpgdistributors.aspx

我尝试了之前关于网页抓取的讨论并相应地修改了代码。

r web-scraping rvest rselenium data-harvest

2021-10-11T15:16:36.073

0 投票

2 回答

75 浏览

r - 在 read_html 中抓取网页后的字符 (0)

我正在尝试从下面的屏幕截图中抓取“1,335,000”（数字在屏幕截图的底部）。我在 R 中编写了以下代码。

但是，当我调用“employee_number”时，它给了我“character(0)”。谁能帮我弄清楚为什么？

r web-scraping rvest webharvest data-harvest

2021-12-04T15:37:54.850

1 2 3 4 5 6 7 8 9 10