1

我正在使用 python 和 lxml 从大量链接中获取 div.article 的内容。我想要 div 的实际 html 标记。但到目前为止,我只能获得去除标记的链接的 text_content() 。

doc = html.fromstring(doc_text)

article = doc.cssselect("div.article")

if len(article) > 0:
    text = article[0].text_content()

    data = {
        'product':product,
        'content': text,
    }

谁能帮我获取文章[0]的标记?

谢谢

4

1 回答 1

4

您可以只使用节点的迭代功能并以这种方式构建您的字符串。

def innerHTML(node): 
    buildString = ''
    for child in node:
        buildString += html.tostring(child)
    return buildString
于 2013-03-11T16:46:51.683 回答