嗨,我正在尝试构建一个简单的维基百科报废工具,它可以让我分析文本并构建一个使用 python 的人生活中的事件时间线。我已经在网上搜索可能的方法来做到这一点,直到现在我已经能够使用 BeautifulSoup 和 urllib2 检索数据。到目前为止的代码看起来像这样:
from bs4 import BeautifulSoup
import urllib2
import re
import nltk
import json
#get source code of page (function used later)
def fetchsource(url):
source = urllib2.urlopen(url).read()
return source
if __name__=='__main__':
#url = "http://en.wikipedia.org/w/index.php?action=raw&title=Tom_Cruise" #works
url="http://en.wikipedia.org/w/api.php?action=query&prop=revisions&rvprop=content&format=xml&&titles=Tom_Cruise" #works
print url
source = fetchsource(url)
soup = BeautifulSoup(source)
print soup.prettify()
现在虽然我可以使用它,但是我得到的输出解析起来有点棘手,我只是想问一下是否有更好的方法或者更易于管理的语法来检索数据。请评论。