1

我正在开发一个使用 crawler4j 和 Jsoup 抓取网络的应用程序。我需要使用 JSoup 解析网页并检查它是否有 zip 文件、pdf/doc 和 mp3/mov 文件可作为下载资源。

对于 zip 文件,我做了以下工作:

Elements zip = doc.select("a[href\$=.zip]")
        println "No of zip files is " + zip.size() 

这段代码正确地告诉我一个页面中有多少个 zip 文件。我不确定如何使用 JSoup 计算所有音频文件或文档文件。任何帮助表示赞赏。谢谢。

4

1 回答 1

2

使用相同的方法,我怀疑它会是这样的:

Elements docs = doc.select("a[href\$=.doc]")
        println "No of doc files is " + docs.size() 

Elements mp3s = doc.select("a[href\$=.mp3]")
        println "No of mp3 files is " + mp3s.size() 

实际上,它只是一个选择器,其中 href 属性以某个文件扩展名结尾。

于 2014-07-07T15:45:42.207 回答