我对此完全感到困惑并寻求我们的帮助!
我正在使用 Import.io 爬虫从 TripAdvisor 提取评论。但是,当我训练爬虫时,“更多”按钮处于非活动状态。
这是完整的评论 Xpath://*[@id="UR288083139"]/div[2]/div/div[3]
到更多按钮: //*[@id="review_288083139"]/div[1]/div[2]/div/div/div[3]/p/span
是否可以有一个 Xpath,以便完整的评论包含在 Import.io 中?
我对此完全感到困惑并寻求我们的帮助!
我正在使用 Import.io 爬虫从 TripAdvisor 提取评论。但是,当我训练爬虫时,“更多”按钮处于非活动状态。
这是完整的评论 Xpath://*[@id="UR288083139"]/div[2]/div/div[3]
到更多按钮: //*[@id="review_288083139"]/div[1]/div[2]/div/div/div[3]/p/span
是否可以有一个 Xpath,以便完整的评论包含在 Import.io 中?
一种方法是先使用 Crawler,然后使用 Extractor。这会将过程分成两部分。
创建一个爬虫,您将对其进行训练以捕获页面上每条评论的链接。确保为列选择链接。
创建一个提取器以从您从爬虫获得的链接中捕获完整评论。
瞧!你得到了所有的评论!
注意:如果您已经拥有需要评论的页面的所有链接,最好制作一个 Extractor 而不是 Crawler。这样,您可以将 API 链接到其他提取器。如果您不知道所有链接,您只需要一个爬虫。
希望这可以帮助!
在您单击该按钮之前,该 html 似乎不在页面上,并且没有包含该数据的 URL。所以你可能不走运。
您可以尝试使用开发人员控制台来查看是否可以在某个 xml 文件或动态 URL 中找到完整的评论。我不确定如何。