javascript - 从网站获取数据

Question

我如何从网站上报废（获取）数据。

示例：- 我有一个网站说 www.getfinancialdata.com

现在我想通过从我的系统运行脚本/url到这个网站来获取数据，然后

对数据进行排序并保存在电子表格中。

我已经为一个简单的网站做了这件事，我可以在其中查看网页正文中的 HTML 内容（在我查看源代码之后）但是当我查看源代码时我的问题是有点复杂，我看到它是 DOM 数据（没有简单的 html 内容）有填充数据的 jquery 函数。我可以从 DOM（Jquery）中获取数据吗？

score 3 · Accepted Answer

我已经成功地使用Selenium来抓取使用大量 javascript 的网站。如果它显示在浏览器中，您可以使用 Selenium 获取它。它是 Java，但有一些绑定可以从您最喜欢的脚本语言中驱动它；我使用 Python。

您可能还想研究像Crowbar和PhantomJS这样的无头浏览器。我喜欢 selenium 的一点是，能够看到它驱动浏览器有助于我的调试。还有一个 Firefox 插件（IDE）可以生成一些基本代码来帮助您入门……您只需单击它，它就会记录您所做的事情（该代码肯定总是需要按摩/大量编辑，但是在您学习如何执行此操作时会有所帮助）。

请注意，这是一件非常困难的事情。尤其是大规模。网站是杂乱无章的，它们彼此不同，并且随着时间的推移而变化。根据您的态度，这使得刮擦是令人愤怒或有趣的挑战。

score 0 · Accepted Answer

如果“www.getfinancialdata.com”为自己所有，建议使用webservice或webapi与您的客户沟通。您将获得干净的 xml 数据或 json 数据，而不是 html 代码。

javascript - 从网站获取数据

2 回答 2

Related

Reference