3

我对此完全感到困惑并寻求我们的帮助!

我正在使用 Import.io 爬虫从 TripAdvisor 提取评论。但是,当我训练爬虫时,“更多”按钮处于非活动状态。

这是该页面的示例:[ http://www.tripadvisor.co.uk/Hotel_Review-g295424-d306662-Reviews-Hilton_Dubai_Jumeirah_Resort-Dubai_Emirate_of_Dubai.html#REVIEWS][1]

这是完整的评论 Xpath://*[@id="UR288083139"]/div[2]/div/div[3]

到更多按钮: //*[@id="review_288083139"]/div[1]/div[2]/div/div/div[3]/p/span

是否可以有一个 Xpath,以便完整的评论包含在 Import.io 中?

4

2 回答 2

1

一种方法是先使用 Crawler,然后使用 Extractor。这会将过程分成两部分。

  1. 创建一个爬虫,您将对其进行训练以捕获页面上每条评论的链接。确保为列选择链接。

    来自网站的样本审查

  2. 创建一个提取器以从您从爬虫获得的链接中捕获完整评论。

  3. 瞧!你得到了所有的评论!

注意:如果您已经拥有需要评论的页面的所有链接,最好制作一个 Extractor 而不是 Crawler。这样,您可以将 API 链接到其他提取器。如果您不知道所有链接,您只需要一个爬虫。

希望这可以帮助!

于 2015-07-17T07:15:24.420 回答
0

在您单击该按钮之前,该 html 似乎不在页面上,并且没有包含该数据的 URL。所以你可能不走运。

您可以尝试使用开发人员控制台来查看是否可以在某个 xml 文件或动态 URL 中找到完整的评论。我不确定如何。

于 2015-07-15T10:10:09.127 回答