-2

我如何从网站上报废(获取)数据。

示例:- 我有一个网站说 www.getfinancialdata.com

现在我想通过从我的系统运行脚本/url到这个网站来获取数据,然后

对数据进行排序并保存在电子表格中。

我已经为一个简单的网站做了这件事,我可以在其中查看网页正文中的 HTML 内容(在我查看源代码之后)但是当我查看源代码时我的问题是有点复杂,我看到它是 DOM 数据(没有简单的 html 内容)有填充数据的 jquery 函数。我可以从 DOM(Jquery)中获取数据吗?

4

2 回答 2

3

我已经成功地使用Selenium来抓取使用大量 javascript 的网站。如果它显示在浏览器中,您可以使用 Selenium 获取它。它是 Java,但有一些绑定可以从您最喜欢的脚本语言中驱动它;我使用 Python。

您可能还想研究像CrowbarPhantomJS这样的无头浏览器。我喜欢 selenium 的一点是,能够看到它驱动浏览器有助于我的调试。还有一个 Firefox 插件(IDE)可以生成一些基本代码来帮助您入门……您只需单击它,它就会记录您所做的事情(该代码肯定总是需要按摩/大量编辑,但是在您学习如何执行此操作时会有所帮助)。

请注意,这是一件非常困难的事情。尤其是大规模。网站是杂乱无章的,它们彼此不同,并且随着时间的推移而变化。根据您的态度,这使得刮擦是令人愤怒或有趣的挑战。

于 2012-05-16T02:18:49.483 回答
0

如果“www.getfinancialdata.com”为自己所有,建议使用webservice或webapi与您的客户沟通。您将获得干净的 xml 数据或 json 数据,而不是 html 代码。

于 2012-05-16T02:36:58.853 回答