需要编写一个需要执行以下操作的机器人:
转到 jsp 页面并通过以下方式搜索内容:
- 在搜索框上写东西
- 单击搜索按钮(提交按钮)
- 单击生成的按钮/链接之一(具有不同输出的相同 jsp 页面)
- 获取新页面的整个html(相同的jsp页面不同的输出)
第四个可以通过屏幕抓取来完成,我认为我不需要帮助。但我需要一些指导来执行从 1 到 3 的选项。任何链接或只是一些有助于我谷歌了解它的关键字将不胜感激。我打算用java来做这个。
我的建议是使用 Selenium ( http://docs.seleniumhq.org/download/ )。在你的firefox中安装Selenium IDE,它可以记录你在网站上所做的事情,将它存储到一个脚本中并回复它。如果您是初学者,此视频 ( http://www.youtube.com/watch?v=gsHyDIyA3dg ) 会很有帮助。
如果你想用 Java 来做,很简单,只需将 Selenium IDE 中的脚本导出到 JUnit Webdriver 代码即可。
当然你可以使用 Java 中的 Selenium Java webdriver 来编写你的程序来直接操作网站。
Selenium 使浏览器自动化。而已。你用这种力量做什么完全取决于你。上述步骤可以通过使用selenium来完成(这是一个 java 中的测试工具)
甚至第 1 点到第 3 点都是屏幕抓取——您正在弄清楚(使用手动或自动方式)页面中的内容并对其执行操作。您可以尝试探索Apache HTTP 客户端,以轻松地运行 HTTP 命令并获取响应。
我希望你这样做是为了合法的手段 - 如果未经许可进行屏幕抓取几乎总是不受欢迎。