1

正如标题所说,我一直在努力爬取文章,剩下的就是作者。

下面是我的代码,使用pyquery编译段落和作者,只有作者返回空白

目标网站:http: //business.transworld.net/153984/news/surfrider-foundation-names-chad-nelsen-new-ceo/

def extract_text_pyquery(html):
    p = pq(html)
    article_whole = p.find(".entry")
    p_tag = article_whole('p')
    print len(p_tag)
    print p_tag
    for i in range (0, len(p_tag)):
        text = p_tag.eq(i).text()
        print text
    entire = p.find("#main")
    author = entire.find('a').filter('.author')
    print 'By:', author
4

1 回答 1

0

类不是作者,rel是;period 选择一个类。您应该过滤'[rel="author"]', 括号让您归档 onter bas 非标准标签。

于 2014-10-01T00:17:06.223 回答