9

下载我正在尝试执行的 wget。

它会下载数千个文件,除非我开始限制文件类型(垃圾文件等)。理论上限制文件类型是可以的。

但是,有很多文件可以在没有文件扩展名的情况下下载,例如,当使用 Adob​​e 手动打开时,实际上是 PDF 文件。这些实际上是我想要的文件。

将 wget 限制为文件类型 PDF 不会下载这些文件。

到目前为止,我的语法是wget -r --no-parent A.pdf www.websitehere.com

使用wget -r --no-parent www.websitehere.com给我带来了每种文件类型,所以理论上我拥有一切。但这意味着我要删除 1000 个垃圾文件,然后要重命名数百个未知文件类型的有用文件。

关于如何使用适当的文件扩展名获取和保存文件的任何想法?

或者,一种方法将 wget 限制为仅没有文件扩展名的文件,然后使用单独的批处理方法来确定文件类型并适当地重命名?

手动测试每个文件以确定适当的应用程序将花费大量时间。

感谢任何帮助!

4

1 回答 1

10

wget有一个--adjust-extension选项,它将为 HTML 和 CSS 文件添加正确的扩展名。但是,其他文件(如 PDF)可能无法正常工作。请参阅此处的完整文档

于 2013-07-28T21:39:17.233 回答