我目前正在开发一个从股票网站提取信息的 python 程序
http://markets.usatoday.com/custom/usatoday-com/html-mktscreener.asp
我需要提取所有列 Symbol - Volume。在这个程序之前,我必须创建一个 bash 脚本,每分钟下载一次页面,持续 1 小时,以获得 60 个页面。我已经做到了。但我不明白如何提取信息,所以我可以将该信息注入 MySQL db。
import libxml2
import sys
import os
import commands
import re
import sys
import MySQLdb
from xml.dom.minidom import parse, parseString
# for converting dict to xml
from cStringIO import StringIO
from xml.parsers import expat
def get_elms_for_atr_val(tag,atr,val):
lst=[]
elms = dom.getElementsByTagName(tag)
# ............
return lst
# get all text recursively to the bottom
def get_text(e):
lst=[]
# ............
return lst
def extract_values(dm):
lst = []
l = get_elms_for_atr_val('table','class','most_actives')
# ............
# get_text(e)
# ............
return lst
我对 python 很陌生,这是最好的。下载了 60 个 HTML 页面,我需要做的只是从我相信的 1 个页面中提取信息 或者至少如果我可以从 1 个页面开始,我可以为其他页面找出一个循环,并提取要使用的信息在 MYSQL
任何让我开始的帮助表示赞赏!