我有一个 HTML 页面
<html>
<head>
<!-- necessary java scripts -->
</head>
<body>
<div id="content"></div>
</body>
使用该脚本,当页面呈现时,适当的 html 内容将与 id 为“content”的 div 元素一起放置。因此,在页面呈现后,会有大量带有 div 元素的 html 内容。
现在我需要使用 Java 在 div 元素中提取动态呈现的内容。任何人都可以建议一种方法吗?
我有一个 HTML 页面
<html>
<head>
<!-- necessary java scripts -->
</head>
<body>
<div id="content"></div>
</body>
使用该脚本,当页面呈现时,适当的 html 内容将与 id 为“content”的 div 元素一起放置。因此,在页面呈现后,会有大量带有 div 元素的 html 内容。
现在我需要使用 Java 在 div 元素中提取动态呈现的内容。任何人都可以建议一种方法吗?
问题是您需要在 java 中评估页面上的脚本。你需要一些网络引擎来做到这一点。你可以看这里:Embedding Gecko/Webkit in Java并尝试使用 webkit 或 gecko 来加载页面。然后你可以使用一些java库来解析html。
您可以使用 javax.swing.text.html.HTMLEditorKit.Parser 解析 html。看看这个链接