2

我对 JSOUP 相当陌生,并且在标签或 id 值上使用 Element.select 进行解析没有问题。我遇到的问题是如何筛选页面中的 javascript 代码。在这里我加载文档:

Document doc = Jsoup.connect(pageUrl)
                .userAgent(Agent)
                .timeout(5000)
                .get();

我试图提取的 javascript 字段值如下:

arrayGPSLocation["0"]    = "-19473982376,6848295867";
arrayGPSLocation["1"]    = "-19473982376,6848296245";

由于这些数组值不在标准代码标记 <> 中,因此 JSOUP 是执行此操作的适当方法吗?我喜欢 JSOUP 的 API。唯一的其他方法是将字符串例程组合在一起......即:

int start = pageBuffer.indexOf("arrayGPSLocation[\" + counter + \"]");
int end = pageBuffer.indexOf(";");
String result = pageBuffer.subString(start,end);

这个伪代码示例在解析大页面时会出现严重的性能问题。有谁知道如何使用 JSOUP 完成此任务,或者我应该编写自己的刮板吗?

4

1 回答 1

2

您可以使用 Jsoup 做的所有事情 - 选择包含 javascript 代码的元素,将其值作为字符串获取并使用此字符串。就像你在例子中那样做。

于 2012-04-22T19:18:26.477 回答