python - 使用 lxml 获取 divs HTML 内容

Question

我正在使用 python 和 lxml 从大量链接中获取 div.article 的内容。我想要 div 的实际 html 标记。但到目前为止，我只能获得去除标记的链接的 text_content() 。

doc = html.fromstring(doc_text)

article = doc.cssselect("div.article")

if len(article) > 0:
    text = article[0].text_content()

    data = {
        'product':product,
        'content': text,
    }

谁能帮我获取文章[0]的标记？

谢谢

score 4 · Accepted Answer

您可以只使用节点的迭代功能并以这种方式构建您的字符串。

def innerHTML(node): 
    buildString = ''
    for child in node:
        buildString += html.tostring(child)
    return buildString

python - 使用 lxml 获取 divs HTML 内容

1 回答 1

Related

Reference