0

我是网络抓取的新手,我使用以下工具和方法来抓取:

  • 我使用 R(带有 Curl、XML 等包)来读取网页(带有 url 链接),并使用 htmlTreeParse 函数来解析 html 页面。
  • 然后为了知道得到我想要的数据,我首先使用开发者工具 i Chrome 来检查代码。
  • 当我知道数据在哪个节点时,我使用 xpathApply 来获取它们。

通常,它运作良好。但我对这个网站有疑问:http ://www.sephora.fr/Parfum/Parfum-Femme/C309/2

  • 当您单击链接时,您将加载页面,实际上它是第 1 页(产品的)。
  • 您必须再次加载 url(通过第二次输入 url),才能获得第 2 页。
  • 当我使用通常的过程读取数据时。htmlTreeParse 函数总是给我 page1。

我试图更多地了解这个网站:

这无助于了解我所做的选择。

能否请你帮忙:

  • 如何访问更多产品?

谢谢

4

1 回答 1

0

我找到了解决方案:硒!我认为它是网络抓取的终极工具。我发布了几个关于网络抓取的问题,现在有了 rselenium,几乎一切皆有可能。

于 2016-06-04T16:59:45.860 回答