我正在 GAE 上开发一个应用程序,它获取一个网页并搜索它的链接。
该页面每天早上都会更新,因此每天早上每 15 分钟执行一次 cron 作业,持续几个小时,以获得当天的页面。
这就是问题所在:如果在第一次执行 cron 作业时,应用程序找到了旧页面(昨天的那个),它会继续获取那个页面,尽管在同一个 URL 处有一个新页面可用。
似乎在某处使用了缓存,但我无法禁用它。
应用程序用于下载页面的代码就是 Java I/O:
InputStream input = null;
ByteArrayOutputStream output = null;
HttpURLConnection conn = null;
URL url = new URL("http://www.page.url.net");
try {
conn = (HttpURLConnection) url.openConnection();
conn.setReadTimeout(0);
conn.setUseCaches(false);
int httpResponseCode = conn.getResponseCode();
if (httpResponseCode == HttpURLConnection.HTTP_OK) {
input = conn.getInputStream();
output = writeByteArrayOutputStreamFromInputStream(input);
} else {
throw new IOException("response code " + httpResponseCode);
}
} finally {
if (input != null) {
output.close();
conn.disconnect();
}
}
怎么了?