37

使用 beautifulsoup 和 html5lib,它会自动放置 html、head 和 body 标签:

BeautifulSoup('<h1>FOO</h1>', 'html5lib') # => <html><head></head><body><h1>FOO</h1></body></html>

我可以设置任何选项,关闭此行为吗?

4

9 回答 9

49
In [35]: import bs4 as bs

In [36]: bs.BeautifulSoup('<h1>FOO</h1>', "html.parser")
Out[36]: <h1>FOO</h1>

将使用 Python 的内置 HTML 解析器解析 HTML。引用文档:

<body>与 html5lib 不同,此解析器不会尝试通过添加标签来创建格式良好的 HTML 文档。与 lxml 不同,它甚至不需要添加<html>标签。


或者,您可以使用html5lib解析器并在之后选择元素<body>

In [61]: soup = bs.BeautifulSoup('<h1>FOO</h1>', 'html5lib')

In [62]: soup.body.next
Out[62]: <h1>FOO</h1>
于 2013-02-11T22:45:33.360 回答
7

让我们首先创建一个汤样本:

soup=BeautifulSoup("<head></head><body><p>content</p></body>")

您可以通过指定获取 html 和 body 的子项soup.body.<tag>

# python3: get body's first child
print(next(soup.body.children))

# if first child's tag is rss
print(soup.body.rss)

你也可以使用unwrap()来删除 body、head 和 html

soup.html.body.unwrap()
if soup.html.select('> head'):
    soup.html.head.unwrap()
soup.html.unwrap()

如果你加载 xml 文件,bs4.diagnose(data)会告诉你使用lxml-xml,它不会用你的汤包起来html+body

>>> BS('<foo>xxx</foo>', 'lxml-xml')
<foo>xxx</foo>
于 2018-08-14T08:02:39.060 回答
7

BeautifulSoup 的这一方面一直让我很恼火。

以下是我的处理方式:

# Parse the initial html-formatted string
soup = BeautifulSoup(html, 'lxml')

# Do stuff here

# Extract a string repr of the parse html object, without the <html> or <body> tags
html = "".join([str(x) for x in soup.body.children])

快速细分:

# Iterator object of all tags within the <body> tag (your html before parsing)
soup.body.children

# Turn each element into a string object, rather than a BS4.Tag object
# Note: inclusive of html tags
str(x)

# Get a List of all html nodes as string objects
[str(x) for x in soup.body.children]

# Join all the string objects together to recreate your original html
"".join()

我仍然不喜欢这个,但它完成了工作。当我使用 BS4 从 HTML 文档中过滤某些元素和/或属性时,我总是会遇到这种情况,然后再对它们进行其他操作,我需要将整个对象作为字符串 repr 而不是 BS4 解析的对象返回。

希望下次我谷歌这个时,我会在这里找到我的答案。

于 2019-12-17T23:23:11.597 回答
4

您唯一的选择是不使用html5lib来解析数据。

这是该库的一个功能html5lib,它修复了缺少的 HTML,例如添加回缺少的必需元素。

于 2013-02-11T22:42:43.387 回答
1
html=str(soup)
html=html.replace("<html><body>","")
html=html.replace("</body></html>","")

将删除 html/body 标记括号。更复杂的版本还会检查startsWith、endsWith ...

于 2021-03-14T12:50:19.993 回答
1

另一个解决方案:

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>Hello <a href="http://google.com">Google</a></p><p>Hi!</p>', 'lxml')
# content handling example (just for example)
# replace Google with StackOverflow
for a in soup.findAll('a'):
  a['href'] = 'http://stackoverflow.com/'
  a.string = 'StackOverflow'
print ''.join([unicode(i) for i in soup.html.body.findChildren(recursive=False)])
于 2016-07-18T05:20:11.027 回答
0

这是我的做法

a = BeautifulSoup()
a.append(a.new_tag('section'))
#this will give you <section></section>
于 2020-11-21T22:52:17.230 回答
0

如果你想让它看起来更好,试试这个:

BeautifulSoup([你要分析的内容] .prettify() )

于 2018-10-01T12:53:41.460 回答
-1

从 v4.0.1 开始有一个方法decode_contents()

>>> BeautifulSoup('<h1>FOO</h1>', 'html5lib').decode_contents()
'<h1>FOO</h1>' 

此问题的解决方案中的更多详细信息: https ://stackoverflow.com/a/18602241/237105

于 2020-07-09T17:51:33.620 回答