0

现在,当我必须扫描或抓取视频 URL 链接时,我遇到了一些困难。此网页使用基于 Flash 的技术来嵌入视频和流式视频。

为了更清楚地理解,这是一个链接示例:

http://vnexpress.net/gl/the-gioi/tu-lieu/2012/11/bai-phat-bieu-thua-nhan-that-bai-cua-romney/

上面的链接有以下内容(Flash 嵌入视频的 HTML 代码):

        <div id="flashContent" style="text-align:center;width:100%;">                                                   
            <span id="FlashPlayer79237" class="Normal" align="center">B&#7841;n c&#7847;n c&#224;i <a href="http://www.macromedia.com/go/getflashplayer">Flash Player</a> &#273;&#7875; xem &#273;&#432;&#7907;c Clip n&#224;y.</span>              
        </div>          

在上面的这篇文章中,有一个上面的视频。但是,当我尝试扫描或爬取内容时,视频无法正常运行(因为它无法加载正确的视频链接)并且只显示安装 Flash Player 插件字样(当然,真实网页需要运行一些 Javascript 脚本或Flash 脚本获取真实视频链接并为用户流式传输此视频)

因此,如何通过 PHP 或 ASP.NET 或 Java 渲染 Flash 和 Javascript 脚本?抓取网页时如何获取正确的视频链接?在这种情况下,如何才能获得正确的Flash 嵌入视频(HTML 代码)?

太感谢了。

4

1 回答 1

0

在我回答之前,我想说明一下,如果您需要这些信息来做任何可疑的事情......请不要。

撇开免责声明不谈,对于那个特定的网站来说,它相对容易。

flashvars 参数(可能由 Javascript 放在那里)包含一个名为 xmlPath 的值,它是一个 url 编码路径(相对于它们的域名)。如果你抓住它并解码它,你会得到类似的东西:

/Service/FlashVideo/PlayListVideoPage.asp?id=79237&f=108&t=1

这指向

 http://vnexpress.net/Service/FlashVideo/PlayListVideoPage.asp?id=79237&f=108&t=1

如果您阅读它,它是一个 XML 文件,其中包含实际视频的 URL。

我不太确定该值是从哪里产生的。如果您需要完全在服务器端执行此操作,则可以使用无头浏览器来处理它。

于 2012-12-11T08:41:51.380 回答