我正在尝试创建一个从 tv catchup 网站获取 html 的程序,然后使用 split 函数将所有 html 数据拆分为频道名称和当前在表中的程序,例如:BBC 1 - '程序名称'。如果有人能提供帮助,我只需要关于我在第一次拆分功能后所做的事情的帮助,我将不胜感激。
更新 - 因为这是一个学校项目,我需要使用 sentence.split 函数,如果有人能指出我需要的网站下一阶段的正确方向,我对从这一点开始接下来我会做什么感到困惑分裂等?
import urllib2
import string
proxy = urllib2.ProxyHandler({"http" : "http://c99.cache.e2bn.org:8084"})
opener = urllib2.build_opener(proxy)
urllib2.install_opener(opener)
tvCatchup = urllib2.urlopen('http://www.TVcatchup.com')
html = tvCatchup.read()
firstSplit = html.split('<a class="enabled" href="/watch.html?c=')[1:]
for i in firstSplit:
print i
secondSplit = html.split ('1" title="BBC One"></a></li><li class="v-type" style="color:#6d6d6d;">')[1:]
for i in secondSplit:
print i