我是网络抓取的新手,我使用以下工具和方法来抓取:
- 我使用 R(带有 Curl、XML 等包)来读取网页(带有 url 链接),并使用 htmlTreeParse 函数来解析 html 页面。
- 然后为了知道得到我想要的数据,我首先使用开发者工具 i Chrome 来检查代码。
- 当我知道数据在哪个节点时,我使用 xpathApply 来获取它们。
通常,它运作良好。但我对这个网站有疑问:http ://www.sephora.fr/Parfum/Parfum-Femme/C309/2
- 当您单击链接时,您将加载页面,实际上它是第 1 页(产品的)。
- 您必须再次加载 url(通过第二次输入 url),才能获得第 2 页。
- 当我使用通常的过程读取数据时。htmlTreeParse 函数总是给我 page1。
我试图更多地了解这个网站:
- 它似乎是用 Oracle commerce(ATG commerce)构建的。
- “真实”的 url 是隐藏的,当你点击过滤器时(例如,你选择一个品牌),你会得到带有 requestid 的 url:http://www.sephora.fr/Parfum/Parfum-Femme/C309? _requestid=285099
这无助于了解我所做的选择。
能否请你帮忙:
- 如何访问更多产品?
谢谢