任何人都知道如何使用 Import.io 从网页中提取数据,其中数据通过 Ajax 加载到页面中。我无法从下面提到的页面中提取数据。第一页数据提取没有问题。但是如何移动到第二页并从第二页中提取数据。下面给出了 URL。 http://www.amazon.com/gp/aag/main?ie=UTF8&asin=&isAmazonFulfilled=&isCBA=&marketplaceID=ATVPDKIKX0DER&orderID=&seller=A13JB7253Q5S1B?
2 回答
我设法获得了一个静态数据集,但没有 API。您可以在以下 GUID 中找到该数据集:c7c63f1c-7081-4d4a-ad91-afe9789a6620
谢谢
该页面上的数据是使用有趣的技术组合部署的;它严重依赖服务器端代码和 Javascript。这种类型的页面可能是一个挑战,但是,总有一些方法可以获取数据。例如,有些卖家的页面是这样的:
即使使用魔术算法,也很容易从中提取数据 - https://magic.import.io/?site=http:%2F%2Fwww.amazon.co.uk%2Fgp%2Fnode%2Findex.html%3Fie %3DUTF8%26marketplaceID%3DA1F83G8C2ARO7P%26me%3DA2WO1PQ2OIOIGM%26merchant%3DA2WO1PQ2OIOIGM
在它起作用之前,我必须从 URL 中删除 redirect=true - 仅供参考。
其他时候有些商店没有这样的 URL,这有点痛苦,而且 URL 很难弄清楚。
当数据对他们非常重要时,我们确实会帮助我们的一些企业客户构建定制的 API,因此请随时与我们联系。我想更大规模的解决方法是根据您感兴趣的类别创建数据集/API,然后按卖家名称过滤更大的数据集(python 或 CSV 样式)。那可能会奏效!