java - 从java上的url解析pdf。我可以使用 jsoup 吗？

Question

我有网址： http: //pasca.undiksha.ac.id/e-journal/index.php/jurnal_bahasa/article/view/500（它不是直接访问pdf，而是定向到pdf文件。我想解析这个pdf文件并获取 pdf 文本。我尝试使用 jsoup ：`

String url = "http://pasca.undiksha.ac.id/e-journal/index.php/jurnal_ep/article/download/380/172";
File in = new File(url);
Document doc = Jsoup.parse(in, "UTF-8");
System.out.println(doc.toString());`

输出是：

java.io.FileNotFoundException: http:\pasca.undiksha.ac.id\e-journal\index.php\jurnal_ep\article\download\380\172 (The filename, directory name, or volume label syntax is incorrect)
        at java.io.FileInputStream.open(Native Method)
        at java.io.FileInputStream.<init>(FileInputStream.java:138)
        at org.jsoup.helper.DataUtil.load(DataUtil.java:36)
        at org.jsoup.Jsoup.parse(Jsoup.java:103)

有什么想法吗？谢谢你

score 3 · Accepted Answer

使用 URLConnection 连接 pdf 阅读内容：

URL url = 
new URL( "http://pasca.undiksha.ac.id/e-journal/index.php/jurnal_bahasa/article/view/500" );

URLConnection connection = url.openConnection();

input = connection.getInputStream();

Document doc = Jsoup.parse(in, "UTF-8");
System.out.println(doc.toString());

score 0 · Accepted Answer

您不能File与以外的 URL 一起使用file://，这当然是一个错误。使用commons-http-client访问您在网络上的文件。

java - 从java上的url解析pdf。我可以使用 jsoup 吗？

2 回答 2

Related

Reference