xpath - 导入 IO - 使用 XPath 显示“更多”内容

Question

我对此完全感到困惑并寻求我们的帮助！

我正在使用 Import.io 爬虫从 TripAdvisor 提取评论。但是，当我训练爬虫时，“更多”按钮处于非活动状态。

这是完整的评论 Xpath：//*[@id="UR288083139"]/div[2]/div/div[3]

到更多按钮： //*[@id="review_288083139"]/div[1]/div[2]/div/div/div[3]/p/span

是否可以有一个 Xpath，以便完整的评论包含在 Import.io 中？

score 1 · Accepted Answer

一种方法是先使用 Crawler，然后使用 Extractor。这会将过程分成两部分。

注意：如果您已经拥有需要评论的页面的所有链接，最好制作一个 Extractor 而不是 Crawler。这样，您可以将 API 链接到其他提取器。如果您不知道所有链接，您只需要一个爬虫。

希望这可以帮助！

score 0 · Accepted Answer

在您单击该按钮之前，该 html 似乎不在页面上，并且没有包含该数据的 URL。所以你可能不走运。

您可以尝试使用开发人员控制台来查看是否可以在某个 xml 文件或动态 URL 中找到完整的评论。我不确定如何。

2 回答 2