1

我认为这是一个真正的挑战!

我为我当地的足球联赛写了一个网站,www.rdyfl.co.uk,并包含来自 FA 的全职系统的 javascript 代码片段,我们在其中生成我们的固定装置,在表格中链接固定装置最近的结果等。

对于我想添加到站点的另一个功能,我需要为每个年龄组和部门抓取“即将到来的夹具”,但是当我检查源时,我有两个问题。

  1. 夹具内容是由 javascript 生成的,因此我需要查看生成的源代码而不仅仅是源代码。

  2. 当我使用 Firefox 查看生成的源代码时,团队名称实际上是进一步的 javascript 链接,而不是名称本身。

我基本上想以某种方式定期下载固定装置然后写入mysql数据库?

我已经问过足协,他们没有更多的选择可以访问数据?

以前从来没有为抓取编码过,谁能指出我一个简单的解决方案,或者有人喜欢这个挑战吗?

4

3 回答 3

1

这个问题很久以前就被问过了,但我注意到它今天很活跃。

您应该能够使用Puppeteer等无头浏览器抓取网站。使用 Puppeteer,您可以访问 URL 并执行 JavaScript 或与网站交互,就像使用普通浏览器一样。解析输出 DOM 并存储它应该相对简单。

使用 Puppeteer有很多关于这个主题的文章。

于 2020-12-28T15:58:06.677 回答
0

最新版本的OutWit Hub在动态内容方面做得很好。由 outwit 抓取以提取链接、图像、文档和表格和文本的源是更新后的 DOM。你当然可以使用这些来获取你需要的东西。自定义抓取工具在 1.0.3 版中仍适用于静态源,但 1.1.x 版(仍处于测试阶段)将提供静态源和动态修改的 DOM 之间的选择。

于 2011-03-06T09:51:41.303 回答
-1

抓取 Javascript 生成的内容具有挑战性。AFAIK 你需要用 AJAX 来做到这一点。希望内容有一些可以用 jQuery 或至少一些 id 抓取的 css。你有可以抓取的 ID 或课程吗?

于 2011-03-05T21:30:00.037 回答