问题标签 [html5lib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 为什么 HTML 节点的文本使用 HTMLParser 为空?
在以下示例中,我期望获得Foo
文本<h2>
:
不幸的是,我得到了''
. 为什么?
奇怪的是, foo 在文本中:
那么在哪里Foo
呢?
python - 如何检查 HTML 中的哪一行触发错误?
我有以下代码从 html 文件中删除重复的段落。
几乎可以工作,但是对于某些元素,我收到此错误
有没有办法在发生错误的 HTML 文件中打印行号以检查格式是什么?
代码没有问题的元素结构是这样的
但是由于文件有点大,我没有确定代码卡住的元素的结构。
python - 运行 beautifulsoup 时出错(模块 'html5lib.treebuilders' 没有属性 '_base')
我是编程和 Python 的新手。我正在尝试在 Python3 上安装 BeutifulSoup 来学习 MOOC 的网络抓取(使用 Jupyter Notebooks 作为 IDE)。当我运行时,from bs4 import BeautifulSoup
我收到以下错误
AttributeError Traceback (last last call last) in 3 import ssl 4 print("done2") ----> 5 from bs4 import BeautifulSoup 6 print("done3")
~\Desktop\py4e\code3\code3\bs4__init__.py in 28 import warnings 29 ---> 30 from .builder import builder_registry, ParserRejectedMarkup 31 from .dammit import UnicodeDammit 32 from .element import (
~\Desktop\py4e\code3\code3\bs4\builder__init__.py in ' 312 register_treebuilders_from(_htmlparser) 313 try: --> 314 from . import _html5lib 315 register_treebuilders_from(_html5lib) 316 除了 ImportError:
~\Desktop\py4e\code3\code3\bs4\builder_html5lib.py in 68 69 ---> 70 类 TreeBuilderForHtml5lib(html5lib.treebuilders._base.TreeBuilder): 71 72 def init (self, soup, namespaceHTMLElements):
AttributeError:模块“html5lib.treebuilders”没有属性“_base”
我尝试了以下解决方案:
1) pip install html5lib==0.9999999
2) pip install --upgrade html5lib==1.0b8
3) pip install --upgrade bleach==1.4.2
3) 更新 BeutifulSoup (pip install) 4) 降级后重新安装 html5lib 到最新版本不起作用
非常感谢您的帮助!
python - 使用python从网站上抓取表格并尝试获取带有文本的内容的超链接
我正在学习 python,我正在尝试从https://www.zaubacorp.com/company-list/city-DELHI/status-Active/p-1-company.html网站上抓取一张表格。在这张表中,您可以看到“CIN”、“公司名称”、“Roc”和“状态”有 4 列。如您所见,“公司名称”是一个超链接,我需要 5 列“CIN”、“公司名称” ,“公司链接”,“大鹏”和“状态”。同样,我写了一个代码,但我只有 4 列,而不是“公司链接”,我得到了不同的结果。我正在分享我的输出 csv 的屏幕截图文件。
请帮我在“CIN”、“公司名称”、“公司链接”、“Roc”和“状态”的 5 列中抓取此表。这是我的代码,请找到我的输出 csv 文件的图像。
python - 在 conda env 中使用 pandas.read_html() 函数时出现错误“找不到 html5lib”
当前代码:
我想在设置'flavor' arg = 'bs4' 或'html5lib' 时使用pandas.read_html() 函数从页面中提取html。我收到错误:ImportError: html5lib not found,请安装它。
但我肯定在环境中安装了 bs4 和 html5lib。运行 conda list 命令后:
我不知道为什么 pandas 函数不能识别这些包。有多个其他帖子处理相同的问题,但没有一个解决方案对我有用。
例如,一些类似这样的帖子: Python: ImportError: lxml not found, please install it and
以上答案建议使用 pip3 安装软件包。当我运行这些命令时,我得到以下信息。
感谢您对类似问题的任何帮助或参考!
谢谢!
python - 我试图点击展开按钮,然后刮桌子
我正在抓取网站表格https://csr.gov.in/companyprofile.php?year=FY+2015-16&CIN=L00000CH1990PLC010573但我没有得到我正在寻找的确切结果。我想要此链接中的 11 列,“公司名称”、“类别”、“状态”、“公司类型”、“RoC”、“子类别”、“列表状态”。这些是 7 列,之后您可以看到一个展开按钮“2017-18 财年的 CSR 详细信息”,当您单击该按钮时,您将获得另外 4 列“平均净利润”、“CSR 规定支出”、“CSR 支出” ", "当地花费"。我想要 csv 文件中的所有这些列。我写了一个代码,它不能正常工作。我附上结果图片以供参考。这是我的代码。
python - 使用 BeautifulSoup 抓取多个 URL
我正在尝试抓取一个网站,但是,我无法完成代码,以便我可以一次插入多个 URL。目前,该代码一次只能使用一个 URL,
当前代码是:
有人可以帮我进行修改,以便我可以插入这样的东西吗?
python - 如何使用相同的 html 属性和值抓取不同的内容?
我能够从网页中抓取大量数据,但我正在努力从具有完全相同属性和值的小节中提取特定内容。这是html:
使用该html作为参考,我有以下内容:
所以理想的结果是:Specialty_1 = 关系问题;Specialty_2 = 抑郁症;Specialty_3 = 灵性
和
问题_1 = 多动症;问题_2 = 饮酒;问题_3 = 愤怒管理
将不胜感激任何和所有的帮助!
python - html5lib 中的故障?
我收到这个错误。是错误还是代码错误?这是什么意思?
(我升级了 html5lib bs4 和请求)
python - 抓取大量数据时随机出现“ValueError:没有找到匹配正则表达式'.+'的表”
这是我第一个使用 pandas 和 selenium 的项目,所以我可能犯了一个愚蠢的错误。我已经编写了这个函数来遍历 nba 球员列表并将他们的比赛日志刮到数据帧中。一切正常,但偶尔当我浏览玩家列表时,它会在某个随机点停止工作并给我这个错误
这是功能
我也尝试将 read_html 风格更改为 html5lib 和 bs4 ,但都不起作用。这是网页示例,https: //www.nba.com/stats/players/boxscores/?CF=PLAYER_NAME E Malik%20Beasley&Season=2020-21&SeasonType=Regular%20Season