事情是:我有一个网络爬虫框架,以及实现这个框架的独立模块。所有这些模块都从特定新闻网站捕获新闻。
在框架中有 2 个不可预知的错误,它们是:IOException 和 SocketTimeoutException。出于显而易见的原因(网站可能处于离线状态和/或正在维护中)
事情是:在一个特定的网站(这个)中,我总是得到随机的 IOExceptions。我尝试预测它,但我仍然不知道为什么会出现此错误。
我认为这是在测试阶段用请求轰炸它。不是,因为在 2 或 3 天内没有发送另一份申请,它仍然会向我抛出错误。
简而言之:该站点不需要身份验证,它会随机抛出 403. RANDOMLY
由于 403 可能是多个不同的错误,我想看看我的应用程序的具体问题是什么。
如果我能得到 which 403 it i,我可以尝试解决它。(403.1, 403.2, ..., 403.n)
//If you guys want the code, it's a basic Jsoup get.
//(I have also tried it with native API,
//and still get the same random 403 errors)
//Note that I also tried it with no redirection, and still get the error
Document doc = Jsoup
.connect("http://www.agoramt.com.br/")
.timeout(60000)
.followRedirects(true)
.get();
//You may criticize about the code. But this specific line is the one
//that throws the error. And it doesn't randomly do that to other 3k
//site connections. That's why I want to get the specifics from the 403