我正在使用 python 和 lxml 从大量链接中获取 div.article 的内容。我想要 div 的实际 html 标记。但到目前为止,我只能获得去除标记的链接的 text_content() 。
doc = html.fromstring(doc_text)
article = doc.cssselect("div.article")
if len(article) > 0:
text = article[0].text_content()
data = {
'product':product,
'content': text,
}
谁能帮我获取文章[0]的标记?
谢谢