java - 在java中解析html以提取信息

Question

如果您让我知道是否有一个 java 类可以根据 XML 从 HTML 页面中提取信息，我将不胜感激？

谢谢

score 3 · Accepted Answer

你可以使用Jsoup。我使用它并且非常适合解析html。这是来自 Jsoup 网站的示例：

示例获取 Wikipedia 主页，将其解析为 DOM，然后从新闻部分中选择标题到元素列表中：

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

score 1 · Accepted Answer

就个人而言，我使用Cobra。

它允许您将 HTML 视为 XML，从而创建 DOM。这允许您使用诸如 xPath 之类的工具

查看Java HTML Parser以获取示例

score 0 · Accepted Answer

我使用了 HtmlUnit：

final HtmlPage page1 = webClient.getPage("https://jira/secure/Dashboard.jspa");
final HtmlForm form = page1.getFormByName("loginform");
final HtmlTextInput textField = form.getInputByName("os_username");
final HtmlPasswordInput pwd = form.getInputByName("os_password");
textField.setValueAttribute(jname);
pwd.setValueAttribute(jpasswd);
final HtmlPage page2 = (HtmlPage) form.getInputByValue("Login").click();

java - 在java中解析html以提取信息

3 回答 3

Related

Reference