我正在尝试使用 python goose extractor 从纽约时报中提取文章。
我尝试使用标准的 url 检索方式:
g.extract(url=url)
但是,这会产生一个空字符串。所以我尝试了通过文档推荐的以下方式:
import urllib2
import goose
url = "http://www.nytimes.com/reuters/2015/12/21/world/africa/21reuters-kenya-attacks-somalia.html?_r=0"
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())
response = opener.open(url)
raw_html = response.read()
g = goose.Goose()
a = g.extract(raw_html=raw_html)
a.cleaned_text
再次为“cleaned_text”返回一个空字符串。html是从网站上检索的。我也尝试过使用请求,但结果相同。
我假设这是一个 python goose 问题,无法从返回的原始数据中提取文章正文。我之前搜索过,但找不到任何可以解决我的问题的结果。