学习 Python,我正在尝试制作一个没有任何 3rd 方库的网络爬虫,所以这个过程对我来说不会简化,而且我知道我在做什么。我浏览了几个在线资源,但所有这些都让我对某些事情感到困惑。
html看起来像这样,
<html>
<head>...</head>
<body>
*lots of other <div> tags*
<div class = "want" style="font-family:verdana;font-size:12px;letter-spacing:normal"">
<form class ="subform">...</form>
<div class = "subdiv1" >...</div>
<div class = "subdiv2" >...</div>
*lots of other <div> tags*
</body>
</html>
我希望刮板提取<div class = "want"...>*content*</div>
并将其保存到 html 文件中。
我对如何解决这个问题有一个非常基本的想法。
import urllib
from urllib import request
#import re
#from html.parser import HTMLParser
response = urllib.request.urlopen("http://website.com")
html = response.read()
#Some how extract that wanted data
f = open('page.html', 'w')
f.write(data)
f.close()