我已经写了一半的代码来从 RSS 提要中提取标题和链接,但它会导致上述错误。获取文本时,两个函数都出现错误。我想去掉标题和链接标签的输入字符串。
from bs4 import BeautifulSoup
import urllib.request
import re
def getlink(a):
a= str(a)
bsoup=BeautifulSoup(a)
a=bsoup.find('link').getText()
return a
def gettitle(b):
b=str(b)
bsoup=BeautifulSoup(b)
b=bsoup.find('title').getText()
return b
webpage= urllib.request.urlopen("http://feeds.feedburner.com/JohnnyWebber?format=xml").read()
soup=BeautifulSoup(webpage)
titlesoup=soup.findAll('title')
linksoup= soup.findAll('link')
for i,j in zip(titlesoup,linksoup):
i = getlink(i)
j= gettitle(j)
print (i)
print(j)
print ("\n")
编辑:falsetru 的方法效果很好。
我还有一个问题。可以通过执行从任何标签中提取文本getText
吗?