问题标签 [html5lib]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

106 问题

0 投票

1 回答

161 浏览

python - Xpath 不匹配

我正在尝试从页面中获取一些元素。不幸的是，它导致一个空列表。漂亮打印的树包含以下元素：

但是，当我在同一棵树上执行此操作时：

我得到一个空列表。该树是使用 html5lib / lxml treebuilder 创建的。

2011-08-20T13:07:27.737

0 投票

2 回答

1572 浏览

python - 使用 html5lib 或漂白剂删除标签的内容

我一直在使用出色的漂白库来删除不良的 HTML。

我有大量从 Microsoft Word 粘贴的 HTML 文档，其中包含以下内容：

使用漂白剂（style隐含禁止使用标签），给我留下：

这没有帮助。漂白剂似乎只能选择：

转义标签；
删除标签（但不是它们的内容）。

我正在寻找第三种选择 - 删除标签及其内容。

有没有办法使用漂白剂或 html5lib 完全删除style标签及其内容？html5lib的文档并没有太多帮助。

python django html5lib

2011-09-24T11:00:46.760

0 投票

1 回答

3775 浏览

python - Django CMS“没有名为 html5lib 的模块”

我有一个安装了所有默认和推荐模块的基本 Django CMS 站点，但是我收到并错误提示...

更新

html5lib 已通过安装easy_install html5lib，如果我import html5lib在默认的 Python shell 中，它可以正常导入。

这是使用 Python 2.6.6 在全新安装的 Scientific Linux 上设置的。

我正在使用 Django 1.3.1。

我的 INSTALLED_APPS 如图所示。

我的问题（如果现在还不明显；））是为什么导入 html5lib 有问题，我该如何解决。

更新 1

@matt-williamson 谢谢，这是 html5lib 文件信息

我已更新 Django 错误以提供更多错误页面。如您所见，Python 路径包括/usr/lib/python2.6/site-packages/html5lib-0.90-py2.6.egg，这表明它应该能够找到它。

python django html5lib

2011-10-14T13:37:08.033

0 投票

3 回答

5505 浏览

python - 使用 html5lib 将 HTML 片段转换为纯文本

有没有一种简单的方法可以使用 Python 库 html5lib 来转换如下内容：

至

python html html5lib

2011-12-31T00:19:29.853

0 投票

1 回答

731 浏览

python - 这个 html5lib 脚本是怎么回事？

尝试处理一个非常简单的 html5 脚本并使用 html5lib 渲染它

输出如下所示：

是的。它只是中途切断。将树构建器从 lxml 更改为 dom 没有任何作用。调整 HTML 会更改输出，但它仍然很损坏。

python html5lib

2012-02-02T05:35:29.993

0 投票

1 回答

236 浏览

python - html5lib 返回

在教程的第一步中，html5lib我看到了相当混乱的行为。

文档告诉：

这将返回自定义“simpletree”格式的树。

作为文件，我有一个普通的 html 文档。但就我而言，这是：

我相信这不好，但我不知道会发生什么。

编辑

read如果我在打开的文件上调用方法，它会以字符串形式返回文件：

之后doc = html5lib.parse(f)，f.read()返回空字符串，就像文件已经被读取的文件一样。

python html5lib

2012-04-30T06:42:08.240

0 投票

3 回答

837 浏览

python - html5lib。如何在不添加 html、head 和 body 标签的情况下获取有效的 html？

我正在使用html5lib验证来自用户的自定义 HTML 。问题是 html5lib 添加了html,head和body标签，我不需要。

这是经过验证的，可以清理，但我怎样才能删除或阻止将这些标签添加到树中？我的意思是排除replace使用。

python dom html-parsing html5lib

2012-04-30T12:37:36.827

0 投票

2 回答

2508 浏览

python - Python BeautifulSoup 错误

我有这个脚本：

但这给了我以下错误：

然后我尝试了这段代码：

或者

这给了我这个错误：

我正在运行 Linux Ubuntu 10.04，Python 2.6.5，BeautifulSoup 版本是：'3.1.0.1' 如何修复我的代码，或者我错过了什么？

python web-crawler beautifulsoup lxml html5lib

2012-05-10T11:19:10.783

0 投票

1 回答

1427 浏览

python - 带有 lxml treebuilder 的 html5lib 无法正确解析命名空间

我正在尝试html5lib使用lxmltreebuilder 解析一些 HTML 内容。注意：我正在使用requests库来获取内容，内容是 HTML5（尝试使用 XHTML - 结果相同）。

当我简单地输出 HTML 源代码时，它看起来还不错：

但是当我实际使用 html5lib 解析它时，会发生一些奇怪的事情：

注意这xmlnsU0003Afoo件事。

此外，html.nsmapdict 不包含foo命名空间，仅包含html.

有谁知道发生了什么以及我该如何解决这个问题？

后期编辑：

这似乎是预期的行为：

如果正在使用的 XML API 限制了元素和属性的本地名称中允许的字符，那么该工具可以将所有元素和属性的本地名称 [...] 映射到一组允许的名称，方法是替换任何不符合条件的字符。 '不支持大写字母 U 和字符的 Unicode 代码的六位数字 [...] -将 HTML DOM 强制转换为信息集

python lxml html5lib

2012-09-03T20:41:43.427

0 投票

1 回答

264 浏览

php - 需要为链接解析 HTML 文档——使用 html5lib 之类的库或其他库？

我是一个非常新手的网页构建器，目前正在创建一个需要根据目标页面更改链接颜色的网站。链接将根据某些用户输入标准分类为不同的类别（例如好、坏、中性）——例如，用户感兴趣的内容链接为蓝色，用户（可能）不想看到的内容被着色为普通文本等。

我认为我需要一种方法来解析网页的内容链接（存储在 MySQL 数据库中），更改页面上所有链接的颜色（因此我还需要能够更改 HTML 中的链接类）在将调整后的页面输出给用户之前。我读到正则表达式不是找到这些链接的好方法——所以我应该使用一个库，如果是这样，html5lib 对我正在做的事情有好处吗？

php html-parsing html5lib

2012-09-07T15:14:01.953

1 2 3 4 5 6 7 8 9 10

问题标签 [html5lib]

编辑

Reference