问题标签 [html5lib]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
629 浏览

python - 禁用 lxml 中“--”的评论检查

用例:

使用 lxml解析https://www.banca-romaneasca.ro/en/tools-and-resources/失败。

它来自 lxml > https://github.com/lxml/lxml/blob/master/src/lxml/lxml.etree.pyx#L3017

它在https://www.banca-romaneasca.ro/en/tools-and-resources/中发现了不好的评论

寻求解决方案,例如:

  • 禁用检查(一些魔法,标志,在 xml 上)

    /li>
  • 猴子补丁(更改代码,注入......)

更新1:

我使用 html5lib 并希望在 html5 中获得声音、部分、视频等标签。

版本:

  • html5lib==0.9999999
  • lxml==3.5.0(降级 lxml 也不是解决方案)

更新 2::

这似乎是 lxml https://github.com/lxml/lxml/pull/172#issuecomment-169084439中的改进/问题。

等待 lxml 开发者反馈。

更新 3::

收到反馈,似乎是 html5lib 错误,来自 github 的最后一个开发版本已经修复。

0 投票
1 回答
278 浏览

python - BeautifulSoup 不解析 html 的每个标签

我遇到了 BeautifulSoup 无法完全解析收到的 html 的问题。我尝试使用 lxml 和 html5lib 解析器,我遇到了同样的问题。

0 投票
1 回答
545 浏览

python - 如何从 lxml.html.html5paser 元素标记中删除命名空间值

使用 lxml.html 包中的 html5parser 时是否可以不为标签添加命名空间?

例子:

我找到的最简单的解决方案是使用正则表达式删除它,但也许根本不包含该文本?

0 投票
1 回答
746 浏览

python - 为什么 pip search 找不到某些软件包,而它们可以通过 pip install 安装

为什么无论如何都可以通过安装pip search某些软件包(例如, ) ?html5libpip install

0 投票
1 回答
7208 浏览

python-3.x - python3 - 没有名为“html5lib”的模块

html5lib我正在运行一个需要但我收到错误的 python3 程序No module named 'html5lib'

这是终端的两个会话:

问题可能出在哪里?

0 投票
1 回答
83 浏览

python-2.7 - HTML5LIB 安装问题

我有一台安装了 Python 2.7 和 3.5 的 Win 7 机器

2.7 在 C:\Python27

3.5 在 C:\Users\xxx\AppData\Local\Programs\Python\Python35-32

我想在我的 Python 2.7 安装中使用 html5lib 导入

我可以看到它安装在 3.5 目录中

如何安装它以使其可用于 2.7 安装?

我的路径是

谢谢阅读

0 投票
0 回答
139 浏览

beautifulsoup - html5lib 让 BeautifulSoup 漏掉一个元素

继续尝试从总统辩论中提取成绩单,我还没有开始使用 html5lib 作为 BeautifulSoup 的解析器。

但是,现在当我运行(以前工作的)代码来查找带有实际成绩单的元素时,它会出错并声称没有找到任何这样的跨度。

这是代码:

这是错误:

这是我正在调用的页面的相关部分,证明我没有疯,有一个跨度为“displaytext”类

我错过了什么?如果我在没有在soup调用中调用“html5lib”的情况下运行它,它可以正常工作(但由于没有相应结束标签的虚假虚假标签调用,我会得到以后的错误)。

0 投票
0 回答
76 浏览

python - 将 HTML5lib 导入 Python35 Windows 平台

对 html5lib 的搜索显示使用 Path 进行了明显的安装

C:\Users----\AppData\Local\Programs\Python\Python35-32\Lib\site-packages\bs4\builders_pycache_

但是,导入命令返回以下内容

我难住了。我发现这里解决了类似的问题,但没有解决方案。谢谢你的帮助。

0 投票
1 回答
29 浏览

python - Python BeautifulSoup html5lib mix 似乎正在删除 for 循环中的所有其他项目

我是 python 新手,但到目前为止我真的很喜欢这种语言。

我一直在创建一堆复杂的 html5 元素并使用 html5lib 模块。

当我浏览段落中的元素时,我可以很好地打印出来,但是当我尝试使用 bs4 的插入方法时,我只能得到所有其他元素的输出,我不知道为什么!

我的蟒蛇:

的HTML

输出:

如果我抽出以下行,我会得到所有五个元素。有没有人知道我做错了什么?

0 投票
1 回答
2039 浏览

python - 谁能解释为什么我收到此错误 [ImportError: lxml not found, please install it]

我正在尝试使用 pandas 库中的 .read_html() 函数,并在我在 shell 中运行代码时不断收到此错误。我看到您需要安装 lxml,所以我使用 apt-get 进行了安装。但后来当我再次尝试运行它时,我得到了同样的错误。

这是我正在使用的代码

我取出了 api 密钥,但如果需要,可以发布它。

这是完整的追溯