我正在使用 Jsoup 解析 html 文件并从元素中提取所有可见文本。问题是 javascript 变量中有一些 html 位显然被忽略了。将这些位取出的最佳解决方案是什么?
例子:
<!DOCTYPE html>
<html>
<head>
<script>
var html = "<span>some text</span>";
</script>
</head>
<body>
<p>text</p>
</body>
</html>
在这个例子中,Jsoup 只从p
标签中提取文本,这是它应该做的。如何从var html
span 中获取文本?该解决方案必须应用于数千个不同的页面,因此我不能依赖于具有相同名称的 javascript 变量之类的东西。