问题标签 [html5lib]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
285 浏览

dart - Pub 安装失败,包“html5lib”没有 pubspec.yaml 文件

我创建了一个简单的项目。这是我的 pubspec.yaml

现在我得到这个错误

0 投票
1 回答
132 浏览

python - html5lib 系统要求是什么?

我一直在阅读html5lib文档,但我找不到任何有关要求的信息。它可以在仅 python 的环境中运行,还是需要 C 库(如 Lxml 解析器)。

它是在 Python 3 上运行还是需要 2.x,比如 Beautiful Soup?

0 投票
9 回答
12501 浏览

python - 不要自动放html、head和body标签,beautifulsoup

使用 beautifulsoup 和 html5lib,它会自动放置 html、head 和 body 标签:

我可以设置任何选项,关闭此行为吗?

0 投票
1 回答
911 浏览

python - Beautifulsoup 功能在特定情况下无法正常工作

我正在尝试使用 urllib2 读取以下 url:http: //frcwest.com/,然后搜索元重定向的数据。

它读取以下数据:

将其读入 Beautifulsoup 效果很好。但是由于某种原因,没有一个功能适用于这个特定的 senarious,我不明白为什么。Beautifulsoup 在所有其他情况下都对我很有效。但是,当简单地尝试时:

不产生任何结果。

我的最终目标是运行:

但如果:

甚至不工作然后我被卡住了。任何煽动这个谜团的人将不胜感激,谢谢!

0 投票
1 回答
1535 浏览

python - Beautifulsoup 丢失节点

我正在使用 Python 和 Beautifulsoup 来解析 HTML-Data 并从 RSS-Feeds 中获取 p-tags。但是,某些 url 会导致问题,因为解析的汤对象不包括文档的所有节点。

例如我试图解析http://feeds.chicagotribune.com/~r/ChicagoBreakingNews/~3/T2Zg3dk4L88/story01.htm

但是在将解析后的对象与页面源代码进行比较后,我注意到之后的所有节点ul class="nextgen-left"都丢失了。

这是我解析文档的方式:

0 投票
1 回答
4052 浏览

python - 无法在 Python 中打开 html5lib

我刚刚使用 Windows 命令提示符为 Python 安装了 html5lib。软件包安装在这里:

但是,如果我尝试导入 html5lib:

我收到以下错误:

关于可能导致错误的任何想法?谢谢

0 投票
1 回答
899 浏览

python - 用 BeautifulSoup 解析,错误信息 TypeError: coercing to Unicode: need string or buffer, NoneType found

所以我试图从亚马逊页面抓取数据,当我尝试解析卖家所在的位置时出现错误。这是我的代码:

我收到与末尾的“打印”命令有关的错误消息: TypeError: coercing to Unicode: need string or buffer, NoneType found

我知道它来自这一行——location = eachseller.find('div', {'class' : 'olpAvailability'})因为没有那行代码可以正常工作,而且我知道我得到了 NoneType 因为该行没有找到任何东西。这是我要解析的部分的 html:

我看不出“位置”代码行有什么问题,或者为什么它没有提取我想要的数据。

编辑:我想通了,但我不知道为什么。如果我将打印命令更改为 print location.find(text=True) 它会输出我想要的位置。希望有一天这对某人有所帮助。

0 投票
2 回答
68 浏览

python - 当我使用 python 的 html5lib 时出现“expected-doctype-but-got-chars”错误?

这是我的代码:

是什么导致错误?

但是 html5lib 的文档使用了这个:

0 投票
1 回答
4406 浏览

python - difference between lxml and html5lib in the context of beautifulsoup

Is there a difference between the capabiities of lxml and html5lib parsers in the context of beautifulsoup? I am trying to learn to use BS4 and using the following code construct --

I started out with using lxml as the parser but noticed that for some websites the for loop just is never entered even though there are valid links in the page. The same page works with html5ib parser. Are there any specific type of pages that might not work with lxml?

I am on Ubuntu using python-lxml 2.3.2-1 with libxml2 2.7.8.dfsg-5.1ubunt and html5lib-1.0b3

EDIT: I updated to lxml 3.1.2 and still see the same issue. On a mac though running 3.0.x the same page is being parsed properly. The website in question is www.olivegarden.com

0 投票
1 回答
146 浏览

django - 为什么 html5lib sanitizer 删除
标签?

我只是想弄清楚这一点。在 html5lib 的 sanitizer 代码中,<section>未将其列为可接受的元素。为什么?

我能够弄清楚的唯一原因是IE 6-8不支持它。

有什么方法可以强制解决问题而无需修改 html5lib 代码?还是我应该想出一个解决方法?这个问题提到使用<aside>标签和<div>标签。就我个人而言,这对我来说很不优雅,我宁愿使用<section>并且可能使用 HTML5 Shiv JavaScript 库来使其在旧的、不符合标准的浏览器中工作。

当然,我总是可以修改库,但我想知道是否有更深层次的原因导致缺席。