0

如果您让我知道是否有一个 java 类可以根据 XML 从 HTML 页面中提取信息,我将不胜感激?

谢谢

4

3 回答 3

3

你可以使用Jsoup。我使用它并且非常适合解析html。这是来自 Jsoup 网站的示例:

示例 获取 Wikipedia 主页,将其解析为 DOM,然后从新闻部分中选择标题到元素列表中:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");
于 2012-09-15T08:21:26.830 回答
1

就个人而言,我使用Cobra

它允许您将 HTML 视为 XML,从而创建 DOM。这允许您使用诸如 xPath 之类的工具

查看Java HTML Parser以获取示例

于 2012-09-15T08:22:53.880 回答
0

我使用了 HtmlUnit:

final HtmlPage page1 = webClient.getPage("https://jira/secure/Dashboard.jspa");
final HtmlForm form = page1.getFormByName("loginform");
final HtmlTextInput textField = form.getInputByName("os_username");
final HtmlPasswordInput pwd = form.getInputByName("os_password");
textField.setValueAttribute(jname);
pwd.setValueAttribute(jpasswd);
final HtmlPage page2 = (HtmlPage) form.getInputByValue("Login").click();    
于 2017-06-22T14:29:20.557 回答