我正在尝试编写我的第一个 python 脚本。我想编写一个从网站获取信息的程序。
我设法打开网站,读取所有数据并将数据从字节转换为字符串。
import urllib.request
response = urllib.request.urlopen('http://www.imdb.com/title/tt0413573/episodes?season=10')
website = response.read()
response.close()
html = website.decode("utf-8")
print(type(html))
print(html)
字符串很大,我不知道我是将它转换为列表并遍历列表还是将其保留为字符串。
airdate
如果找到所有关键字并且他们得到字符串中的下一行,我想做什么。
当我滚动字符串时,这是相关位:
<meta itemprop="episodeNumber" content="10"/>
<div class="airdate">
Nov. 21, 2013
</div>
这在字符串中发生了很多次。我想要做的是遍历字符串并返回这个结果:
"episodeNumber" = some number
"airdate" = what ever date
对于超时,这发生在字符串中。我试过了:
keywords = ["airdate","episodeNumber"]
for i in keywords:
if i in html:
print (something)
我希望我以正确的方式解释自己。如果需要,我将编辑问题。