我只是在寻找有关 python 网络抓取的一些信息。我正在尝试从此时间表中获取所有数据,并且我希望将课程链接到其开启时间。查看 html 有多个表(表中的表)。我打算将 Google App Engine 与 Python 一起使用(也可能是 BeautifulSoup)。关于解决此问题的最佳方法的任何建议是?
谢谢
更新:
我已经设法使用以下代码从表中提取所需的数据:
import urllib
from lxml import etree
import StringIO
url = "http://ttcache.dcu.ie/Reporting/Individual;Locations;id;lg25?
template=location+Individual&weeks=20&days=1-5&periods=1-30&Width=0&Height=0"
result = urllib.urlopen(url)
html = result.read()
parser = etree.HTMLParser()
tree = etree.parse(StringIO.StringIO(html), parser)
xpath = "//table[2]/tr/td//text()"
filtered_html = tree.xpath(xpath)
print filtered_html
但是我得到很多这些u'\xa0', u'\xa0', '\r\n', '\r\n'
字符分散在整个解析的文本中。关于如何对抗这些有什么建议吗?
谢谢