给定一个 HTML 页面,我想获取嵌入在 HTML 文件中或由它链接的所有“x”文件,其中“x”等于:
- 图片 (JPG,PNG,GIF...)
- 文件(Word、PowerPoint、PDF...)
- 闪存(.flv、.swf)
我该怎么做呢?
- 因此,图像很容易提取,因为它们要么通过以 (.png|.jpg|....) 结尾的链接链接,要么嵌入了 img 标签。
- 文档不能嵌入,只能链接到(链接以 .doc|.ppt|.pdf|... 结尾)。所以它们也很容易获得。
这是我的问题:
如何获取网页中嵌入的 Flash 文件?
请给我一个伪算法或正则表达式模式。
如果我的上述观点(1. 和 2.)有误,请也告诉我。
谢谢!