问题标签 [html5lib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 禁用 lxml 中“--”的评论检查
用例:
使用 lxml解析https://www.banca-romaneasca.ro/en/tools-and-resources/失败。
它来自 lxml > https://github.com/lxml/lxml/blob/master/src/lxml/lxml.etree.pyx#L3017
它在https://www.banca-romaneasca.ro/en/tools-and-resources/中发现了不好的评论
寻求解决方案,例如:
禁用检查(一些魔法,标志,在 xml 上)
/li>猴子补丁(更改代码,注入......)
更新1:
我使用 html5lib 并希望在 html5 中获得声音、部分、视频等标签。
版本:
- html5lib==0.9999999
- lxml==3.5.0(降级 lxml 也不是解决方案)
更新 2::
这似乎是 lxml https://github.com/lxml/lxml/pull/172#issuecomment-169084439中的改进/问题。
等待 lxml 开发者反馈。
更新 3::
收到反馈,似乎是 html5lib 错误,来自 github 的最后一个开发版本已经修复。
python - BeautifulSoup 不解析 html 的每个标签
我遇到了 BeautifulSoup 无法完全解析收到的 html 的问题。我尝试使用 lxml 和 html5lib 解析器,我遇到了同样的问题。
python - 如何从 lxml.html.html5paser 元素标记中删除命名空间值
使用 lxml.html 包中的 html5parser 时是否可以不为标签添加命名空间?
例子:
我找到的最简单的解决方案是使用正则表达式删除它,但也许根本不包含该文本?
python - 为什么 pip search 找不到某些软件包,而它们可以通过 pip install 安装
为什么无论如何都可以通过安装pip search
某些软件包(例如, ) ?html5lib
pip install
python-3.x - python3 - 没有名为“html5lib”的模块
html5lib
我正在运行一个需要但我收到错误的 python3 程序No module named 'html5lib'
。
这是终端的两个会话:
问题可能出在哪里?
python-2.7 - HTML5LIB 安装问题
我有一台安装了 Python 2.7 和 3.5 的 Win 7 机器
2.7 在 C:\Python27
3.5 在 C:\Users\xxx\AppData\Local\Programs\Python\Python35-32
我想在我的 Python 2.7 安装中使用 html5lib 导入
我可以看到它安装在 3.5 目录中
如何安装它以使其可用于 2.7 安装?
我的路径是
谢谢阅读
beautifulsoup - html5lib 让 BeautifulSoup 漏掉一个元素
继续尝试从总统辩论中提取成绩单,我还没有开始使用 html5lib 作为 BeautifulSoup 的解析器。
但是,现在当我运行(以前工作的)代码来查找带有实际成绩单的元素时,它会出错并声称没有找到任何这样的跨度。
这是代码:
这是错误:
这是我正在调用的页面的相关部分,证明我没有疯,有一个跨度为“displaytext”类
我错过了什么?如果我在没有在soup调用中调用“html5lib”的情况下运行它,它可以正常工作(但由于没有相应结束标签的虚假虚假标签调用,我会得到以后的错误)。
python - 将 HTML5lib 导入 Python35 Windows 平台
对 html5lib 的搜索显示使用 Path 进行了明显的安装
C:\Users----\AppData\Local\Programs\Python\Python35-32\Lib\site-packages\bs4\builders_pycache_
但是,导入命令返回以下内容
我难住了。我发现这里解决了类似的问题,但没有解决方案。谢谢你的帮助。
python - Python BeautifulSoup html5lib mix 似乎正在删除 for 循环中的所有其他项目
我是 python 新手,但到目前为止我真的很喜欢这种语言。
我一直在创建一堆复杂的 html5 元素并使用 html5lib 模块。
当我浏览段落中的元素时,我可以很好地打印出来,但是当我尝试使用 bs4 的插入方法时,我只能得到所有其他元素的输出,我不知道为什么!
我的蟒蛇:
的HTML
输出:
如果我抽出以下行,我会得到所有五个元素。有没有人知道我做错了什么?
python - 谁能解释为什么我收到此错误 [ImportError: lxml not found, please install it]
我正在尝试使用 pandas 库中的 .read_html() 函数,并在我在 shell 中运行代码时不断收到此错误。我看到您需要安装 lxml,所以我使用 apt-get 进行了安装。但后来当我再次尝试运行它时,我得到了同样的错误。
这是我正在使用的代码
我取出了 api 密钥,但如果需要,可以发布它。
这是完整的追溯