这里的 GitHub 中的报纸 3k是一个非常有用的库。目前,它适用于 python3。我想知道它是否可以处理下载/存储的文本。关键是我们已经下载了 URL 的内容,并且不想在每次使用某些功能(关键字、摘要、日期……)时都重复此操作。例如,我们想查询存储数据的日期和作者。明显的代码执行流程 1.download、2.parse,提取各种信息:文本、标题、图像……这对我来说似乎是一个总是从下载开始的连锁反应:
>>> url = 'http://fox13now.com/2013/12/30/new-year-new-laws-obamacare-pot-guns-and-drones/'
>>> article = Article(url)
>>> article.download()
>>> article.html
'<!DOCTYPE HTML><html itemscope itemtype="http://...'
>>> article.parse()
>>> article.authors
['Leigh Ann Caldwell', 'John Honway']
>>> article.publish_date
datetime.datetime(2013, 12, 30, 0, 0)
>>> article.text
'Washington (CNN) -- Not everyone subscribes to a New Year's resolution...'
>>> article.top_image
'http://someCDN.com/blah/blah/blah/file.png'