问题标签 [html5lib]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
161 浏览

python - Xpath 不匹配

我正在尝试从页面中获取一些元素。不幸的是,它导致一个空列表。漂亮打印的树包含以下元素:

但是,当我在同一棵树上执行此操作时:

我得到一个空列表。该树是使用 html5lib / lxml treebuilder 创建的。

0 投票
2 回答
1572 浏览

python - 使用 html5lib 或漂白剂删除标签的内容

我一直在使用出色的漂白库来删除不良的 HTML。

我有大量从 Microsoft Word 粘贴的 HTML 文档,其中包含以下内容:

使用漂白剂(style隐含禁止使用标签),给我留下:

这没有帮助。漂白剂似乎只能选择:

  • 转义标签;
  • 删除标签(但不是它们的内容)。

我正在寻找第三种选择 - 删除标签及其内容。

有没有办法使用漂白剂或 html5lib 完全删除style标签及其内容?html5lib的文档并没有太多帮助。

0 投票
1 回答
3775 浏览

python - Django CMS“没有名为 html5lib 的模块”

我有一个安装了所有默认和推荐模块的基本 Django CMS 站点,但是我收到并错误提示...

更新

html5lib 已通过安装easy_install html5lib,如果我import html5lib在默认的 Python shell 中,它可以正常导入。

这是使用 Python 2.6.6 在全新安装的 Scientific Linux 上设置的。

我正在使用 Django 1.3.1。

我的 INSTALLED_APPS 如图所示。

我的问题(如果现在还不明显;))是为什么导入 html5lib 有问题,我该如何解决。

更新 1

@matt-williamson 谢谢,这是 html5lib 文件信息

我已更新 Django 错误以提供更多错误页面。如您所见,Python 路径包括/usr/lib/python2.6/site-packages/html5lib-0.90-py2.6.egg,这表明它应该能够找到它。

0 投票
3 回答
5505 浏览

python - 使用 html5lib 将 HTML 片段转换为纯文本

有没有一种简单的方法可以使用 Python 库 html5lib 来转换如下内容:

0 投票
1 回答
731 浏览

python - 这个 html5lib 脚本是怎么回事?

尝试处理一个非常简单的 html5 脚本并使用 html5lib 渲染它

输出如下所示:

是的。它只是中途切断。将树构建器从 lxml 更改为 dom 没有任何作用。调整 HTML 会更改输出,但它仍然很损坏。

0 投票
1 回答
236 浏览

python - html5lib 返回

在教程的第一步中,html5lib我看到了相当混乱的行为。

文档告诉:

这将返回自定义“simpletree”格式的树。

作为文件,我有一个普通的 html 文档。但就我而言,这是:

我相信这不好,但我不知道会发生什么。

编辑

read如果我在打开的文件上调用方法,它会以字符串形式返回文件:

之后doc = html5lib.parse(f)f.read()返回空字符串,就像文件已经被读取的文件一样。

0 投票
3 回答
837 浏览

python - html5lib。如何在不添加 html、head 和 body 标签的情况下获取有效的 html?

我正在使用html5lib验证来自用户的自定义 HTML 。问题是 html5lib 添加了html,headbody标签,我不需要。

这是经过验证的,可以清理,但我怎样才能删除或阻止将这些标签添加到树中?我的意思是排除replace使用。

0 投票
2 回答
2508 浏览

python - Python BeautifulSoup 错误

我有这个脚本:

但这给了我以下错误:

然后我尝试了这段代码:

或者

这给了我这个错误:

我正在运行 Linux Ubuntu 10.04,Python 2.6.5,BeautifulSoup 版本是:'3.1.0.1' 如何修复我的代码,或者我错过了什么?

0 投票
1 回答
1427 浏览

python - 带有 lxml treebuilder 的 html5lib 无法正确解析命名空间

我正在尝试html5lib使用lxmltreebuilder 解析一些 HTML 内容。注意:我正在使用requests库来获取内容,内容是 HTML5(尝试使用 XHTML - 结果相同)。

当我简单地输出 HTML 源代码时,它看起来还不错:

返回

但是当我实际使用 html5lib 解析它时,会发生一些奇怪的事情:

返回

注意这xmlnsU0003Afoo件事。

此外,html.nsmapdict 不包含foo命名空间,仅包含html.

有谁知道发生了什么以及我该如何解决这个问题?

后期编辑:

这似乎是预期的行为:

如果正在使用的 XML API 限制了元素和属性的本地名称中允许的字符,那么该工具可以将所有元素和属性的本地名称 [...] 映射到一组允许的名称,方法是替换任何不符合条件的字符。 '不支持大写字母 U 和字符的 Unicode 代码的六位数字 [...] -将 HTML DOM 强制转换为信息集

0 投票
1 回答
264 浏览

php - 需要为链接解析 HTML 文档——使用 html5lib 之类的库或其他库?

我是一个非常新手的网页构建器,目前正在创建一个需要根据目标页面更改链接颜色的网站。链接将根据某些用户输入标准分类为不同的类别(例如好、坏、中性)——例如,用户感兴趣的内容链接为蓝色,用户(可能)不想看到的内容被着色为普通文本等。

我认为我需要一种方法来解析网页的内容链接(存储在 MySQL 数据库中),更改页面上所有链接的颜色(因此我还需要能够更改 HTML 中的链接类)在将调整后的页面输出给用户之前。我读到正则表达式不是找到这些链接的好方法——所以我应该使用一个库,如果是这样,html5lib 对我正在做的事情有好处吗?