java - 是否可以忽略 Http Content-Length？

Question

我正在使用Crawler4J收集有关网站的信息。但有时我会收到以下错误：

信息：获取以下内容时出现异常：{someurl} [内容长度分隔的消息正文过早结束（预期：X；收到：Y]

（对我来说）目前还不清楚 X < Y 是否会发生这种情况，反之亦然。

在 fetchContent 的“fetcher.PageFetchResult.java”中抛出异常（我猜是在获取响应标头时）。

所以我的问题是：是否有可能（通常）忽略http内容长度并获取信息？

我已经查找了 crawler4j 问题，但没有类似的问题。

也许 stackoverflow 社区的某个人知道如何解决这个问题。

非常感谢，

久志

编辑

引发此异常的代码（片段）：

public boolean fetchContent(Page page) {
    try {
        page.load(entity);
        page.setFetchResponseHeaders(responseHeaders);
        return true;
    } catch (Exception e) {
        logger.log(Level.INFO, "Exception while fetching content for: " + page.getWebURL().getURL() + " [" + e.getMessage()
                + "]");
    }
    return false;
}

responseHeaders 和实体为空（默认情况下）：

protected HttpEntity entity = null;
protected Header[] responseHeaders = null;

score 4 · Accepted Answer

Premature end of Content-Length delimited message body通常意味着您在阅读整个内容长度之前与服务器断开连接，只需在代码中包含重试机制，以便您可以重试然后获取完整内容。

java - 是否可以忽略 Http Content-Length？

1 回答 1

Related

Reference