1

我正在使用Jsoup解析一些 HTML 以获取一些 PDF 网址。

PDF 显示在如下<embed>标签中:

<html>
<body marginwidth="0" marginheight="0" style="background-color: rgb(38,38,38)">
<embed width="100%" height="100%" name="plugin" src="http://www.domain.com/apdf_id.pdf?tp=&amp;arnumber=1253069&amp;isnumber=28038" type="application/pdf">
</body>
</html>

如何从该页面获取 PDF URL,以便将其下载到本地计算机?

4

1 回答 1

1

只需选择<embed type="application/pdf">元素并将其src属性作为绝对 URL。

String pdfURL = document.select("embed[type=application/pdf").first().absUrl("src");

您也可以专门选择<embed name="plugin">

String pdfURL = document.select("embed[name=plugin").first().absUrl("src");

然后你可以用java.net.URL它来获得它的味道InputStream

InputStream input = new URL(pdfURL).openStream();

最后只需将其写入任意方式OutputStream,例如FileOutputStream通常的方式。

也可以看看:

于 2012-12-21T15:35:33.250 回答