grails - 在 Groovy 中使用 JSoup 获取 mp3/pdf 文件

Question

我正在开发一个使用 crawler4j 和 Jsoup 抓取网络的应用程序。我需要使用 JSoup 解析网页并检查它是否有 zip 文件、pdf/doc 和 mp3/mov 文件可作为下载资源。

对于 zip 文件，我做了以下工作：

Elements zip = doc.select("a[href\$=.zip]")
        println "No of zip files is " + zip.size()

这段代码正确地告诉我一个页面中有多少个 zip 文件。我不确定如何使用 JSoup 计算所有音频文件或文档文件。任何帮助表示赞赏。谢谢。

score 2 · Accepted Answer

使用相同的方法，我怀疑它会是这样的：

Elements docs = doc.select("a[href\$=.doc]")
        println "No of doc files is " + docs.size() 

Elements mp3s = doc.select("a[href\$=.mp3]")
        println "No of mp3 files is " + mp3s.size()

实际上，它只是一个选择器，其中 href 属性以某个文件扩展名结尾。

grails - 在 Groovy 中使用 JSoup 获取 mp3/pdf 文件

1 回答 1

Related

Reference