问题标签 [html5lib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Xpath 不匹配
我正在尝试从页面中获取一些元素。不幸的是,它导致一个空列表。漂亮打印的树包含以下元素:
但是,当我在同一棵树上执行此操作时:
我得到一个空列表。该树是使用 html5lib / lxml treebuilder 创建的。
python - Django CMS“没有名为 html5lib 的模块”
我有一个安装了所有默认和推荐模块的基本 Django CMS 站点,但是我收到并错误提示...
更新
html5lib 已通过安装easy_install html5lib
,如果我import html5lib
在默认的 Python shell 中,它可以正常导入。
这是使用 Python 2.6.6 在全新安装的 Scientific Linux 上设置的。
我正在使用 Django 1.3.1。
我的 INSTALLED_APPS 如图所示。
我的问题(如果现在还不明显;))是为什么导入 html5lib 有问题,我该如何解决。
更新 1
@matt-williamson 谢谢,这是 html5lib 文件信息
我已更新 Django 错误以提供更多错误页面。如您所见,Python 路径包括/usr/lib/python2.6/site-packages/html5lib-0.90-py2.6.egg,这表明它应该能够找到它。
python - 使用 html5lib 将 HTML 片段转换为纯文本
有没有一种简单的方法可以使用 Python 库 html5lib 来转换如下内容:
至
python - 这个 html5lib 脚本是怎么回事?
尝试处理一个非常简单的 html5 脚本并使用 html5lib 渲染它
输出如下所示:
是的。它只是中途切断。将树构建器从 lxml 更改为 dom 没有任何作用。调整 HTML 会更改输出,但它仍然很损坏。
python - html5lib 返回
在教程的第一步中,html5lib
我看到了相当混乱的行为。
文档告诉:
这将返回自定义“simpletree”格式的树。
作为文件,我有一个普通的 html 文档。但就我而言,这是:
我相信这不好,但我不知道会发生什么。
编辑
read
如果我在打开的文件上调用方法,它会以字符串形式返回文件:
之后doc = html5lib.parse(f)
,f.read()
返回空字符串,就像文件已经被读取的文件一样。
python - html5lib。如何在不添加 html、head 和 body 标签的情况下获取有效的 html?
我正在使用html5lib验证来自用户的自定义 HTML 。问题是 html5lib 添加了html
,head
和body
标签,我不需要。
这是经过验证的,可以清理,但我怎样才能删除或阻止将这些标签添加到树中?我的意思是排除replace
使用。
python - Python BeautifulSoup 错误
我有这个脚本:
但这给了我以下错误:
然后我尝试了这段代码:
或者
这给了我这个错误:
我正在运行 Linux Ubuntu 10.04,Python 2.6.5,BeautifulSoup 版本是:'3.1.0.1' 如何修复我的代码,或者我错过了什么?
python - 带有 lxml treebuilder 的 html5lib 无法正确解析命名空间
我正在尝试html5lib
使用lxml
treebuilder 解析一些 HTML 内容。注意:我正在使用requests
库来获取内容,内容是 HTML5(尝试使用 XHTML - 结果相同)。
当我简单地输出 HTML 源代码时,它看起来还不错:
返回
但是当我实际使用 html5lib 解析它时,会发生一些奇怪的事情:
返回
注意这xmlnsU0003Afoo
件事。
此外,html.nsmap
dict 不包含foo
命名空间,仅包含html
.
有谁知道发生了什么以及我该如何解决这个问题?
后期编辑:
这似乎是预期的行为:
如果正在使用的 XML API 限制了元素和属性的本地名称中允许的字符,那么该工具可以将所有元素和属性的本地名称 [...] 映射到一组允许的名称,方法是替换任何不符合条件的字符。 '不支持大写字母 U 和字符的 Unicode 代码的六位数字 [...] -将 HTML DOM 强制转换为信息集
php - 需要为链接解析 HTML 文档——使用 html5lib 之类的库或其他库?
我是一个非常新手的网页构建器,目前正在创建一个需要根据目标页面更改链接颜色的网站。链接将根据某些用户输入标准分类为不同的类别(例如好、坏、中性)——例如,用户感兴趣的内容链接为蓝色,用户(可能)不想看到的内容被着色为普通文本等。
我认为我需要一种方法来解析网页的内容链接(存储在 MySQL 数据库中),更改页面上所有链接的颜色(因此我还需要能够更改 HTML 中的链接类)在将调整后的页面输出给用户之前。我读到正则表达式不是找到这些链接的好方法——所以我应该使用一个库,如果是这样,html5lib 对我正在做的事情有好处吗?