2

我想获取需要单击其链接的页面的数据。

我尝试使用爬虫和提取器捕获链接字段,并将列验证设置为链接和 html。但它不返回实际链接。只有在我单击链接后,才会打开一个弹出窗口,从那里我想要数据。每个登录页面都有大约 50 个这样的链接。我想抓取这些链接中的每一个。

我用连接器尝试了这个,但事情变得复杂,因为大约有 90k 查询。此外,连接器不会返回有用的页面 url。

4

1 回答 1

1

提取这些数据实际上取决于网站。导入无法从弹出窗口中提取数据。但是,根据网站的结构,提取链接路径是可能的。如果您无法使用该工具提取数据,我建议您使用 xpath 来获取链接路径。

为此,请导航到您希望从中获取此数据的页面,右键单击并选择“检查元素”。选择链接路径在页面上的位置,再次右键单击并选择“选择xpath”。返回到您的提取器并选择“高级设置”图标并粘贴到您的 xpath 中。同样,这可能不起作用,因为它取决于网站的结构,但仍然值得一试。

谢谢,
梅格

于 2015-08-19T09:28:09.540 回答