我正在使用 jsoup 创建一个类,它将执行以下操作:
- 构造函数打开到 url 的连接。
- 我有一个方法可以检查页面的状态。即200、404等。
- 我有一个方法来解析页面并返回一个 url 列表。#
下面是我正在尝试做的粗略工作,而不是非常粗略,因为我一直在尝试很多不同的事情
public class ParsePage {
private String path;
Connection.Response response = null;
private ParsePage(String langLocale){
try {
response = Jsoup.connect(path)
.userAgent("Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.21 (KHTML, like Gecko) Chrome/19.0.1042.0 Safari/535.21")
.timeout(10000)
.execute();
} catch (IOException e) {
System.out.println("io - "+e);
}
}
public int getSitemapStatus(){
int statusCode = response.statusCode();
return statusCode;
}
public ArrayList<String> getUrls(){
ArrayList<String> urls = new ArrayList<String>();
}
}
如您所见,我可以获取页面状态,但是使用构造函数中已经打开的连接我不知道如何获取要解析的文档,我尝试使用:
Document doc = connection.get();
但这是不行的。有什么建议么?或者更好的方法来解决这个问题?