我正在为不同的新闻媒体创建一个网络爬虫。我试图为The Hindu
报纸创建一个。
我想从其档案中提到的各种链接中获取新闻。假设我想通过第二天提到的链接获取新闻:http://www.thehindu.com/archive/web/2010/06/19/
即 2010 年 6 月 19 日。
现在我已经编写了以下代码行:
import mechanize
from bs4 import BeautifulSoup
url = "http://www.thehindu.com/archive/web/2010/06/19/"
br = mechanize.Browser()
htmltext = br.open(url).read()
articletext = ""
soup = BeautifulSoup(htmltext)
for tag in soup.findAll('li', attrs={"data-section":"Business"}):
articletext += tag.contents[0]
print articletext
但我无法获得所需的结果。我基本上被卡住了。有人可以帮我解决吗?