2

我正在寻找一个模块来捕获显示在浏览器(如 Firefox)中的所有数据。它需要捕获所有CSS/JS/AJAX数据。我尝试使用LWP::UserAgentwhich 是一些如何不捕获所有数据的方法。

如果您想查看我正在查看的网页是:

http://finance.yahoo.com/q?s=SAPE&ql=1

您可以看到他们的菜单栏(主页、投资、新闻、个人理财等)下方有一个水平栏,其中包含日期和时间信息,例如:

2013 年 2 月 6 日,星期三,美国东部标准时间晚上 8:10 - 美国市场休市

这可以在任何浏览器中看到,但是当 Perl 获取网页时,日期、时间以及市场是否开放或关闭不在捕获的数据中。

我是否需要使用 Wireshark 来嗅探我需要的东西,或者是否有一个模块可以复制浏览器并捕获这些数据,或者有更好的方法吗?

我以为LWP::UserAgent捕获了所有数据,但显然我错了..

谢谢。

4

1 回答 1

1

如果你拿页面的“查看源代码”,这主要是 LWP::UserAgent 看到的。要获取包含动态加载的 ajax 数据、基于 javascript 构建的菜单等的页面,您需要将页面加载到 Web 浏览器、node.js 或 phantomJs 或类似工具中,这些工具实际上会运行 javascripts 并构建如您所见的页面。然后使用他们的 DOM 模型来查找相关数据(例如使用 jQuery)。

于 2013-02-10T17:36:30.803 回答