问题标签 [html5lib]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

106 问题

0 投票

8 回答

40982 浏览

beautifulsoup - beautifulsoup，html5lib：模块对象没有属性 _base

当我更新我的包时，我遇到了这个新错误：

我尝试更新beautifulsoup，没有更多结果。我该如何解决？

beautifulsoup html5lib

2016-07-19T00:14:13.940

0 投票

1 回答

403 浏览

python - 如何修复 html5lib 中的“意外关键字参数‘useChardet’”

我正在使用 html5lib 并将其更新到最新版本后，我不断收到此错误：

我使用的代码非常简单：

有任何想法吗？

python html5lib

2016-07-25T20:41:56.297

0 投票

1 回答

406 浏览

python - 在 python 中解析网页的问题

我想解析一个网页以检索有关它的一些信息（我的确切问题是检索此列表中的所有项目：http: //www.computerhope.com/vdef.htm）。

但是，我不知道该怎么做。

互联网上的很多教程都是从这个开始的（简化的）： html5lib.parse(urlopen("http://www.computerhope.com/vdef.htm"))

但在那之后，没有任何教程解释我如何浏览文档并找到我正在寻找的 html 部分。

其他一些教程解释了如何做到这一点，CSSSelector但同样，所有教程都不是以网页开头，而是以字符串开头（例如：http: //lxml.de/cssselect.html）。

因此，我尝试使用此网页创建一棵树： fromstring(urlopen("http://www.computerhope.com/vdef.htm").read()) 但出现此错误： lxml.etree.XMLSyntaxError: Specification mandate value for attribute itemscope, line 3, column 28。此错误是由于存在未指定的属性（例如<input attribute></input>），但由于我无法控制网页，因此无法绕过它。

所以这里有几个问题可以解决我的问题：

如何浏览树？
有没有办法让解析器不那么严格？

谢谢！

python html lxml html5lib

2016-07-27T17:45:51.230

0 投票

1 回答

6113 浏览

web-scraping - html5lib: TypeError: init() 得到了一个意外的关键字参数“编码”

我正在尝试安装html5lib. 起初我尝试安装最新版本（8 或 9 个九），但它与我的 BeautifulSoup 冲突，所以我决定尝试旧版本（0.9999999，七个九）。我安装了它，但是当我尝试使用它时：

我收到一个错误：

出了什么问题，我该怎么办？

web-scraping beautifulsoup html5lib

2016-08-22T18:23:52.340

0 投票

2 回答

2317 浏览

python-2.7 - 无法使用 BeautifulSoup 找到所有链接以从网站中提取链接（链接识别）

我正在使用此处找到的此代码（使用 python 和 BeautifulSoup 从网页检索链接）从使用的网站中提取所有链接。

我正在使用这个网站http://www.bestwestern.com.au 作为测试。不幸的是，我注意到代码没有提取一些链接，例如这个http://www.bestwestern.com.au/about-us/careers/。我不知道为什么。在页面的代码中，这是我发现的。

我认为提取器通常应该识别它。在 BeautifulSoup 文档中，我可以读到：“最常见的意外行为类型是您在文档中找不到您知道的标签。你看到它进去了，但是 find_all() 返回 [] 或 find() 返回 None。这是 Python 内置 HTML 解析器的另一个常见问题，它有时会跳过它不理解的标签。同样，解决方案是安装 lxml 或 html5lib。” 所以我安装了html5lib。但我仍然有同样的行为。

谢谢您的帮助

python-2.7 hyperlink beautifulsoup html5lib

2016-09-19T22:01:09.473

0 投票

0 回答

163 浏览

python-3.x - 需要：替换 html5lib sanitizer 的示例

djangocms_text_ckeditor 引用了 html5lib sanitizer 函数，该函数已被弃用。

我希望有一种方法可以在不使用消毒剂的情况下重写此代码。

从 html5lib 导入消毒剂

sanitizer.HTMLSanitizer.acceptable_elements.extend(settings.TEXT_ADDITIONAL_TAGS)

有什么建议么？5 行代码真的阻碍了我将整个项目升级到当前的 ubuntu、django 和 python。

似乎已解决： https ://github.com/html5lib/html5lib-python/issues/72 但是如何重写代码的示例将非常有帮助。我不知道为什么 djangocms_text_ckedit 还没有对代码进行这些更改。

python-3.x django-cms html5lib

2016-11-18T15:01:44.213

0 投票

2 回答

701 浏览

python - AttributeError: 'ResultSet' 对象没有属性 'find_all' - pd.read_html

我正在尝试从网页的表格中提取数据，但不断收到上述错误。我查看了该站点上的示例以及其他示例，但没有一个直接涉及我的问题。请看下面的代码：

我已经消除了错误，通过看到错误是指没有方法 find_all 的表（即结果集）并通过注释掉以下行来运行代码：

并改变这个：

但是，这不会从网页中提取任何数据，而只是创建一个带有列标题的 .csv 文件。

我尝试使用soup.find_all 将一些数据直接提取到行中，但出现以下错误；

我无法解决。

因此，任何帮助将不胜感激。

此外，出于好奇，是否有任何方法可以使用以下方法实现预期结果：

因为，我也试过这个，但继续保持：

理想情况下，这是我更喜欢的方法，但在网上找不到任何示例。

python dataframe bs4 html5lib

2016-12-09T18:28:48.390

0 投票

3 回答

3740 浏览

python - BeautifulSoup find_all 仅限于 50 个结果？

我正在尝试使用 BeautifulSoup 从页面中获取结果：

我阅读了这个先前的解决方案：Beautiful Soup findAll 没有找到它们，我尝试了 html.parser、lxml 和 html5lib，但没有一个返回超过 50 个结果。有什么建议么？

谢谢

python beautifulsoup lxml html5lib

2017-02-27T09:21:29.167

0 投票

1 回答

146 浏览

python - python包安装时的ImportError

我正在完全按照文档http://django-wiki.readthedocs.io/en/latest/installation.html中所示安装 django-wiki

当我尝试执行“python manage.py migrate”时，出现以下错误：

但是当我用 python shell 导入它时......

...它工作得很好。

请，这方面的任何帮助都会很有用！

python django importerror html5lib django-wiki

2017-03-06T19:56:23.293

0 投票

1 回答

5085 浏览

python - ImportError：html5lib 中没有名为 base 的模块

我突然无法启动可能 Django 服务器了，运行检查：

显示以下错误：

你有什么想法吗？

python django importerror requirements.txt html5lib

2017-03-10T10:14:31.147

1 2 3 4 5 6 7 8 9 10

问题标签 [html5lib]

Reference