java - jsoup 巨大的html下载

Question

我正在尝试下载一个 HTML 文件，它实际上是一个大约 6000 行的表格，所以我编写了这段代码

 Document _DOM=Jsoup.connect(_EXACT1_URL)
            .cookies(_COOCKIES)
            .timeout(70000)
            .userAgent("Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0")
            .get();

当我尝试解析我的文档（_DOM）并计算行时，我得到的只是 1127 行我尝试将文档字符串写入文件（page.html）然后解析，我得到相同的结果，文件大小是大约（1.2 Mb）当我使用我的浏览器（Firefox）下载它时，实际大小是（6 Mb）我像这样增加了JVM堆大小内存

java -Xms32m -Xmx500 -jar myJarFile.jar, unfortunately, get the same result.

我将非常感谢您的帮助。

score 2 · Accepted Answer

我相信你需要设置maxBodySize(int)。默认大小为 1mb。

例如：

Document _DOM = Jsoup.connect(_EXACT1_URL)
               .cookies(_COOCKIES)
               .timeout(70000)
               .maxBodySize(1024*1024*10) // Size in Bytes - 10 MB 
               .userAgent("Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0")
               .get();

java - jsoup 巨大的html下载

1 回答 1

Related

Reference