我正在尝试使用wget
-p 选项来下载特定文档和 HTML 中链接的图像。
问题是,托管 HTML 的站点在 HTML 之前有一些非 html 信息。这导致wget
不将文档解释为 HTML 并且不搜索图像。
有没有办法wget
剥离前 X 行和/或强制搜索图像?
示例网址:
第一行内容:
<DOCUMENT>
<TYPE>S-4
<SEQUENCE>1
<FILENAME>ds4.htm
<DESCRIPTION>FORM S-4
<TEXT>
<HTML><HEAD>
<TITLE>Form S-4</TITLE>
最后几行内容:
</BODY></HTML>
</TEXT>
</DOCUMENT>
编辑:当然接受 PHP 中的解决方案。