问题标签 [html5lib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
beautifulsoup - beautifulsoup,html5lib:模块对象没有属性 _base
当我更新我的包时,我遇到了这个新错误:
我尝试更新beautifulsoup
,没有更多结果。我该如何解决?
python - 如何修复 html5lib 中的“意外关键字参数‘useChardet’”
我正在使用 html5lib 并将其更新到最新版本后,我不断收到此错误:
我使用的代码非常简单:
有任何想法吗?
python - 在 python 中解析网页的问题
我想解析一个网页以检索有关它的一些信息(我的确切问题是检索此列表中的所有项目:http: //www.computerhope.com/vdef.htm)。
但是,我不知道该怎么做。
互联网上的很多教程都是从这个开始的(简化的):
html5lib.parse(urlopen("http://www.computerhope.com/vdef.htm"))
但在那之后,没有任何教程解释我如何浏览文档并找到我正在寻找的 html 部分。
其他一些教程解释了如何做到这一点,CSSSelector
但同样,所有教程都不是以网页开头,而是以字符串开头(例如:http: //lxml.de/cssselect.html)。
因此,我尝试使用此网页创建一棵树:
fromstring(urlopen("http://www.computerhope.com/vdef.htm").read())
但出现此错误:
lxml.etree.XMLSyntaxError: Specification mandate value for attribute itemscope, line 3, column 28
。此错误是由于存在未指定的属性(例如<input attribute></input>
),但由于我无法控制网页,因此无法绕过它。
所以这里有几个问题可以解决我的问题:
- 如何浏览树?
- 有没有办法让解析器不那么严格?
谢谢 !
web-scraping - html5lib: TypeError: __init__() 得到了一个意外的关键字参数“编码”
我正在尝试安装html5lib
. 起初我尝试安装最新版本(8 或 9 个九),但它与我的 BeautifulSoup 冲突,所以我决定尝试旧版本(0.9999999,七个九)。我安装了它,但是当我尝试使用它时:
我收到一个错误:
出了什么问题,我该怎么办?
python-2.7 - 无法使用 BeautifulSoup 找到所有链接以从网站中提取链接(链接识别)
我正在使用此处找到的此代码(使用 python 和 BeautifulSoup 从网页检索链接)从使用的网站中提取所有链接。
我正在使用这个网站http://www.bestwestern.com.au 作为测试。不幸的是,我注意到代码没有提取一些链接,例如这个http://www.bestwestern.com.au/about-us/careers/。我不知道为什么。在页面的代码中,这是我发现的。
我认为提取器通常应该识别它。在 BeautifulSoup 文档中,我可以读到:“最常见的意外行为类型是您在文档中找不到您知道的标签。你看到它进去了,但是 find_all() 返回 [] 或 find() 返回 None。这是 Python 内置 HTML 解析器的另一个常见问题,它有时会跳过它不理解的标签。同样,解决方案是安装 lxml 或 html5lib。” 所以我安装了html5lib。但我仍然有同样的行为。
谢谢您的帮助
python-3.x - 需要:替换 html5lib sanitizer 的示例
djangocms_text_ckeditor 引用了 html5lib sanitizer 函数,该函数已被弃用。
我希望有一种方法可以在不使用消毒剂的情况下重写此代码。
从 html5lib 导入消毒剂
sanitizer.HTMLSanitizer.acceptable_elements.extend(settings.TEXT_ADDITIONAL_TAGS)
有什么建议么?5 行代码真的阻碍了我将整个项目升级到当前的 ubuntu、django 和 python。
似乎已解决: https ://github.com/html5lib/html5lib-python/issues/72 但是如何重写代码的示例将非常有帮助。我不知道为什么 djangocms_text_ckedit 还没有对代码进行这些更改。
python - AttributeError: 'ResultSet' 对象没有属性 'find_all' - pd.read_html
我正在尝试从网页的表格中提取数据,但不断收到上述错误。我查看了该站点上的示例以及其他示例,但没有一个直接涉及我的问题。请看下面的代码:
我已经消除了错误,通过看到错误是指没有方法 find_all 的表(即结果集)并通过注释掉以下行来运行代码:
并改变这个:
但是,这不会从网页中提取任何数据,而只是创建一个带有列标题的 .csv 文件。
我尝试使用soup.find_all 将一些数据直接提取到行中,但出现以下错误;
我无法解决。
因此,任何帮助将不胜感激。
此外,出于好奇,是否有任何方法可以使用以下方法实现预期结果:
因为,我也试过这个,但继续保持:
理想情况下,这是我更喜欢的方法,但在网上找不到任何示例。
python - BeautifulSoup find_all 仅限于 50 个结果?
我正在尝试使用 BeautifulSoup 从页面中获取结果:
我阅读了这个先前的解决方案:Beautiful Soup findAll 没有找到它们 ,我尝试了 html.parser、lxml 和 html5lib,但没有一个返回超过 50 个结果。有什么建议么?
谢谢
python - python包安装时的ImportError
我正在完全按照文档http://django-wiki.readthedocs.io/en/latest/installation.html中所示安装 django-wiki
当我尝试执行“python manage.py migrate”时,出现以下错误:
但是当我用 python shell 导入它时......
...它工作得很好。
请,这方面的任何帮助都会很有用!
python - ImportError:html5lib 中没有名为 base 的模块
我突然无法启动可能 Django 服务器了,运行检查:
显示以下错误:
你有什么想法吗?