2

我将开始我的文章提取工作。

我将要做的任务是提取发布在不同网页上的酒店评论(例如1. http://www.tripadvisor.ca/Hotel_Review-g32643-d1097955-Reviews-San_Mateo_County_Memorial_Park_Campground-Loma_Mar_California.html,2 . http://www.travelpod.com/hotel/Comfort_Suites_Sfo_Airport-San_Mateo.html )

我需要在 Java 中完成这项任务,而在过去的几个月里,我只是在使用 Java。

这是我关于这些的问题。

  1. 是否有可能以通用方式从不同的网页中单独提取评论。

  2. 请让我知道是否有任何 API 支持 Java 中的任务。

  3. 另外,请告诉我您的想法/来源,这将更有利于我完成上述任务。

更新

如果网上有任何相关示例,请发布相同的示例,因为这可能很有用。

4

1 回答 1

4

您可能需要像TagSoupNekoHTML这样的 Java 屏幕抓取实用程序。JSoup也很受欢迎。

但是,在从第三方网站(如tripadvisor)提取数据时,您还需要考虑更大的法律问题。他们的政策允许吗?

于 2010-11-11T09:04:06.560 回答