我需要从网站解析数据:http: //www.sarkari-naukri.in/jobs-by-qualification/b-tech/sub-centre-manager.html
BeautifulSoup 的大部分教程都是用于解析链接,而不是从链接中深入解析所需的数据。
现在我浏览了python的BeautifulSoup模块的一些教程并编写了这个脚本来下载所需的数据字符串
<div id="content_box">
<div id="content" class="hfeed">...
我正在使用的脚本:
from BeautifulSoup import BeautifulSoup
import urllib2
def main():
url = "http://www.sarkari-naukri.in/jobs-by-qualification/b-tech/sub-centre-manager.html"
data = urllib2.urlopen(url).read()
bs = BeautifulSoup(data)
postdata = bs.find('div', {'id': 'content_box'})
postdata= [s.getText().strip() for s in postdata.findAll('div', {'class':'scdetail'})]
fname = 'postdata.txt'
with open(fname, 'w') as outf:
outf.write('\n'.join(postdata))
if __name__=="__main__":
main()
但是这个脚本没有执行我所期望的。我想像明智地将发布数据放入文件中:
职位:国家电子和信息技术学院分中心经理职位空缺 - 昌迪加尔
分中心经理
国立电子信息技术研究所
地址:NIELIT, Chandigarh SCO: 114-116 Sector 17B
邮政编码:160017
昌迪加尔市等等......
请帮助或建议。
谢谢