0

我想解析一个网页以收集数据以供科学使用。我需要解析的文本位于 <span> 中。解析 HTML 将无法实现这一点,因为此文本不断变化,有时每秒更新 10 次。我知道一个事实(由于我阅读了一篇科学论文)这是可能的。

我需要从以下网页收集数据:http ://realtime.springer.com/map 基本上,每次下载论文时,标记都会显示在地图上。我正在寻找实时数据挖掘每个标记的城市/位置,因为它们会弹出,您可以在左侧的地图下看到。

问题:
1)我如何解析这个实时变化的文本,因为它是由java脚本代码生成的?解析网页对我来说并不是一个新鲜的主题,但实时变化的文本却是。

2) 由于速度是解析和写入数据的一个问题,哪种语言最适合我的项目?我计划写入 SQL 数据库,因为速度是一个非常重要的问题,因此请记住整个操作以及在考虑每种语言时可以轻松完成它。如果有我可以使用的有据可查的库,我想要 python。

非常感谢您的任何建议。

4

1 回答 1

0

看起来他们正在调用 JSON 来获取地图数据。假设您获得了他们的许可(有版权声明),您可以调用相同的 URL 直接获取原始数据,而不是从地图中解析它。

$.getJSON('/ip2location/lookupMulti.php', { "rand": Math.random() }, function(data) {
    for (var i=0; i<data.length; i++) {
        var lat = data[i].lat;
        var lng = data[i].lng;
        var name = data[i].name;
    }
            // Etc...

许多公司都有针对频繁 ping 服务器的策略(无论是加载主页还是调用 lookupMulti.php)。如果你没有权限,你很可能会发现你的 IP 很快就被封禁了。

于 2013-04-29T21:52:55.657 回答