问题标签 [html5lib]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
8 回答
40982 浏览

beautifulsoup - beautifulsoup,html5lib:模块对象没有属性 _base

当我更新我的包时,我遇到了这个新错误:

我尝试更新beautifulsoup,没有更多结果。我该如何解决?

0 投票
1 回答
403 浏览

python - 如何修复 html5lib 中的“意外关键字参数‘useChardet’”

我正在使用 html5lib 并将其更新到最新版本后,我不断收到此错误:

我使用的代码非常简单:

有任何想法吗?

0 投票
1 回答
406 浏览

python - 在 python 中解析网页的问题

我想解析一个网页以检索有关它的一些信息(我的确切问题是检索此列表中的所有项目:http: //www.computerhope.com/vdef.htm)。

但是,我不知道该怎么做。

互联网上的很多教程都是从这个开始的(简化的): html5lib.parse(urlopen("http://www.computerhope.com/vdef.htm"))

但在那之后,没有任何教程解释我如何浏览文档并找到我正在寻找的 html 部分。

其他一些教程解释了如何做到这一点,CSSSelector但同样,所有教程都不是以网页开头,而是以字符串开头(例如:http: //lxml.de/cssselect.html)。

因此,我尝试使用此网页创建一棵树: fromstring(urlopen("http://www.computerhope.com/vdef.htm").read()) 但出现此错误: lxml.etree.XMLSyntaxError: Specification mandate value for attribute itemscope, line 3, column 28。此错误是由于存在未指定的属性(例如<input attribute></input>),但由于我无法控制网页,因此无法绕过它。

所以这里有几个问题可以解决我的问题:

  • 如何浏览树?
  • 有没有办法让解析器不那么严格?

谢谢 !

0 投票
1 回答
6113 浏览

web-scraping - html5lib: TypeError: __init__() 得到了一个意外的关键字参数“编码”

我正在尝试安装html5lib. 起初我尝试安装最新版本(8 或 9 个九),但它与我的 BeautifulSoup 冲突,所以我决定尝试旧版本(0.9999999,七个九)。我安装了它,但是当我尝试使用它时:

我收到一个错误:

出了什么问题,我该怎么办?

0 投票
2 回答
2317 浏览

python-2.7 - 无法使用 BeautifulSoup 找到所有链接以从网站中提取链接(链接识别)

我正在使用此处找到的此代码(使用 python 和 BeautifulSoup 从网页检索链接)从使用的网站中提取所有链接。

我正在使用这个网站http://www.bestwestern.com.au 作为测试。不幸的是,我注意到代码没有提取一些链接,例如这个http://www.bestwestern.com.au/about-us/careers/。我不知道为什么。在页面的代码中,这是我发现的。

我认为提取器通常应该识别它。在 BeautifulSoup 文档中,我可以读到:“最常见的意外行为类型是您在文档中找不到您知道的标签。你看到它进去了,但是 find_all() 返回 [] 或 find() 返回 None。这是 Python 内置 HTML 解析器的另一个常见问题,它有时会跳过它不理解的标签。同样,解决方案是安装 lxml 或 html5lib。” 所以我安装了html5lib。但我仍然有同样的行为。

谢谢您的帮助

0 投票
0 回答
163 浏览

python-3.x - 需要:替换 html5lib sanitizer 的示例

djangocms_text_ckeditor 引用了 html5lib sanitizer 函数,该函数已被弃用。

我希望有一种方法可以在不使用消毒剂的情况下重写此代码。

从 html5lib 导入消毒剂

sanitizer.HTMLSanitizer.acceptable_elements.extend(settings.TEXT_ADDITIONAL_TAGS)

有什么建议么?5 行代码真的阻碍了我将整个项目升级到当前的 ubuntu、django 和 python。

似乎已解决: https ://github.com/html5lib/html5lib-python/issues/72 但是如何重写代码的示例将非常有帮助。我不知道为什么 djangocms_text_ckedit 还没有对代码进行这些更改。

0 投票
2 回答
701 浏览

python - AttributeError: 'ResultSet' 对象没有属性 'find_all' - pd.read_html

我正在尝试从网页的表格中提取数据,但不断收到上述错误。我查看了该站点上的示例以及其他示例,但没有一个直接涉及我的问题。请看下面的代码:

我已经消除了错误,通过看到错误是指没有方法 find_all 的表(即结果集)并通过注释掉以下行来运行代码:

并改变这个:

但是,这不会从网页中提取任何数据,而只是创建一个带有列标题的 .csv 文件。

我尝试使用soup.find_all 将一些数据直接提取到行中,但出现以下错误;

我无法解决。

因此,任何帮助将不胜感激。

此外,出于好奇,是否有任何方法可以使用以下方法实现预期结果:

因为,我也试过这个,但继续保持:

理想情况下,这是我更喜欢的方法,但在网上找不到任何示例。

0 投票
3 回答
3740 浏览

python - BeautifulSoup find_all 仅限于 50 个结果?

我正在尝试使用 BeautifulSoup 从页面中获取结果:

我阅读了这个先前的解决方案:Beautiful Soup findAll 没有找到它们 ,我尝试了 html.parser、lxml 和 html5lib,但没有一个返回超过 50 个结果。有什么建议么?

谢谢

0 投票
1 回答
146 浏览

python - python包安装时的ImportError

我正在完全按照文档http://django-wiki.readthedocs.io/en/latest/installation.html中所示安装 django-wiki

当我尝试执行“python manage.py migrate”时,出现以下错误:

但是当我用 python shell 导入它时......

...它工作得很好。

请,这方面的任何帮助都会很有用!

0 投票
1 回答
5085 浏览

python - ImportError:html5lib 中没有名为 base 的模块

我突然无法启动可能 Django 服务器了,运行检查:

显示以下错误:

你有什么想法吗?