0

我正在尝试创建一个 Web 应用程序,用户可以在其中从下拉列表中选择电影的名称(例如“Skyfall”)。然后我想执行一个爬虫去 rottentomatoes.com 并获取与这部电影相关的所有 html 页面。我已经使用 Tomcat 在 Eclipse 中创建了我的 Web 应用程序(GUI)。我有一个网络爬虫:crawler4j,如果我选择将主 .java 文件作为应用程序运行,它就会运行。我怎样才能将这两者结合起来?

  1. 是否可以使用 html 中的参数(电影名称)调用 java 类文件?
  2. 为了在我的html中执行它,我是否必须使用爬虫创建一个单独的小程序?我可以这样做并用它发送字符串(来自 html 的电影名称,所以我需要通过爬虫搜索发送它)?
4

2 回答 2

2

正如 Marvo 在评论中建议的那样,我通过实现一个激活爬虫的 Servlet 解决了这个问题。

于 2013-01-18T11:44:25.823 回答
0

你可以使用Beautiful Soup,我一直用它来从其他网站获取内容。

或者,您也可以使用HtmlUnit

于 2012-12-10T23:22:54.663 回答