0

我正在寻找一种从该网站上抓取数据的方法:http: //www.dectech.org/football/index.php最好使用 Python。我似乎遇到的困难是数据没有硬编码到网站的 HTML 中,并且似乎被包裹在一个叫做 mochi-kit ( http://mochi.github.com/mochikit/ )的东西中.

我做了一些研究,似乎类似的东西BeautifulSoup可能对我有用,但我认为我可能没有正确使用它。我也尝试过urllib毫无乐趣地解析网站。

我的最终目标是拥有一个监控 dectech 网站的程序,并在发布新预测时自动选择使用Betfair API.

4

1 回答 1

2

看起来数据是由 javascript 从这个 url 加载的

http://www.dectech.org/cgi-bin/new_site/GetUpcomingGames.pl?divID=0

返回

{
   "games" : [
      {
         "apct" : 0.377838,
         "dpct" : 0.263445,
         "expGoalDiff" : -0.04086,
         "awayID" : "6",
         "homeID" : "17",
         "date" : "20/10/2012",
         "away" : "Chelsea",
         "home" : "Tottenham",
         "hpct" : 0.358717
      },
      {
         "apct" : 0.237829,
         "dpct" : 0.250146,
         "expGoalDiff" : 0.594234,
         "awayID" : "1",
         "homeID" : "8",
         "date" : "20/10/2012",
         "away" : "Aston Villa",
         "home" : "Fulham",
         "hpct" : 0.512025
      }, /* shortened for brevity */

所以你非常幸运,你不需要抓取数据(这很棘手),你只需要检索它并解析它,就像他们对 mochi 所做的那样。

Python 的simplejson模块将能够解析它...

于 2012-10-15T13:02:09.780 回答