这是我到目前为止的代码:
import urllib
from bs4 import BeautifulSoup
lis = []
webpage = urllib.urlopen('http://facts.randomhistory.com/interesting-facts-about- cats.html')
soup = BeautifulSoup(webpage)
for ul in soup:
for li in soup.findAll('li'):
lis.append(li)
for li in lis:
print li.text.encode("utf-8")
我只是想从开始和结束的“li”标签之间获取猫的事实,并以一种看起来不混乱的方式输出它们。目前,此代码的输出将所有事实重复 4 次左右,并且单词“can't”出现为“can’t”。
我会很感激任何帮助。