问题标签 [data-harvest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
272 浏览

r - 链接重定向问题 - 使用 Rvest 在 R 中进行 Web Scraping

当我使用工具从新闻网站上抓取链接时Rvest,我经常偶然发现重定向到另一个链接的链接。在这些情况下,我只能抓取第一个链接,而第二个链接是实际包含数据的链接。例如:

有没有办法使用第一个链接获得第二个链接?该网站只保留第一个。

0 投票
1 回答
28 浏览

python-3.x - 无法提取网页内容(href 标签)我使用的是 python 3.7

无法从“https://www.theaic.co.uk/aic/analysis-investment-companies”中刮取@href 标签我正在使用 Python 3.7、scrapy、splash 并且也尝试使用 selenium 但没有用。

0 投票
2 回答
144 浏览

r - 使用 R 进行网页抓取:具有多个下拉菜单

我正在尝试使用 4 个下拉菜单从以下网站抓取数据 - 单击每个下拉菜单后,它们会显示一个我想要从中抓取数据的表格。我想结合所有下拉菜单中所有表格的信息。

我正在使用RSelenium包但是因为我对网络抓取非常陌生,我无法理解如何使用四个可用选项进行循环以获得决赛桌。

https://hindi.iocl.com/lpgdistributors.aspx

我尝试了之前关于网页抓取的讨论并相应地修改了代码。

0 投票
2 回答
75 浏览

r - 在 read_html 中抓取网页后的字符 (0)

我正在尝试从下面的屏幕截图中抓取“1,335,000”(数字在屏幕截图的底部)。我在 R 中编写了以下代码。

但是,当我调用“employee_number”时,它给了我“character(0)”。谁能帮我弄清楚为什么?

在此处输入图像描述