嗨,我正在尝试从http://services.runescape.com/m=news/recruit-a-friend-for-free-membership-and-xp
包括链接中获取所有内容,但不是其他一些内容。我目前所做的是:
import urllib
url = "http://services.runescape.com/m=news/recruit-a-friend-for-free-membership-and-xp"
a = urllib.urlopen(url).read()
b = a.split("<div class=\"Content\">")[1]
c = b.split("</div>")[0]
print c
这打印: http: //pastebin.com/WFXGpvRu
我一直在做很多replace()
's 来删除一些东西,例如删除<p>
s (我不想要)并更改<b>
为 '' (那里有两个撇号)。
但我遇到的问题是问号。当应该有撇号时,会出现问号。我不能只做 areplace()
因为那里有问号,应该在那里而不应该是撇号。
有没有更简单的方法来完成我所做的一切?