0

给定一个 HTML 页面,我想获取嵌入在 HTML 文件中或由它链接的所有“x”文件,其中“x”等于:

  • 图片 (JPG,PNG,GIF...)
  • 文件(Word、PowerPoint、PDF...)
  • 闪存(.flv、.swf)

我该怎么做呢?

  1. 因此,图像很容易提取,因为它们要么通过以 (.png|.jpg|....) 结尾的链接链接,要么嵌入了 img 标签。
  2. 文档不能嵌入,只能链接到(链接以 .doc|.ppt|.pdf|... 结尾)。所以它们也很容易获得。

这是我的问题:

如何获取网页中嵌入的 Flash 文件?

请给我一个伪算法或正则表达式模式。

如果我的上述观点(1. 和 2.)有误,请也告诉我。

谢谢!

4

2 回答 2

0

Firefox 扩展DownThemAll允许您右键单击页面并下载指定扩展的所有媒体。它是开源的,所以你可能想看看他们的代码,看看他们是如何实现的。

于 2009-07-09T16:48:36.350 回答
0

我将使用基于事件的 XML 解析器(如 SAX)并为 and 标记编写规则以获取 src 和 href 属性。

于 2009-07-09T16:53:57.197 回答