web-scraping - 网页抓取 Oracle (ATG) Commerce

翻译自：https://stackoverflow.com/questions/37184509 2016-05-12T10:40:01.443

794 次

0

我是网络抓取的新手，我使用以下工具和方法来抓取：

我使用 R（带有 Curl、XML 等包）来读取网页（带有 url 链接），并使用 htmlTreeParse 函数来解析 html 页面。
然后为了知道得到我想要的数据，我首先使用开发者工具 i Chrome 来检查代码。
当我知道数据在哪个节点时，我使用 xpathApply 来获取它们。

通常，它运作良好。但我对这个网站有疑问：http ://www.sephora.fr/Parfum/Parfum-Femme/C309/2

当您单击链接时，您将加载页面，实际上它是第 1 页（产品的）。
您必须再次加载 url（通过第二次输入 url），才能获得第 2 页。
当我使用通常的过程读取数据时。htmlTreeParse 函数总是给我 page1。

我试图更多地了解这个网站：

它似乎是用 Oracle commerce（ATG commerce）构建的。
“真实”的 url 是隐藏的，当你点击过滤器时（例如，你选择一个品牌），你会得到带有 requestid 的 url：http://www.sephora.fr/Parfum/Parfum-Femme/C309? _requestid=285099

这无助于了解我所做的选择。

能否请你帮忙：

如何访问更多产品？

谢谢

1 回答 1

0

我找到了解决方案：硒！我认为它是网络抓取的终极工具。我发布了几个关于网络抓取的问题，现在有了 rselenium，几乎一切皆有可能。

于 2016-06-04T16:59:45.860 回答