问题标签 [beautifulsoup]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 从网站列表中提取数据,没有多余的标签
工作代码:通过 python 和美丽的汤进行谷歌字典查找-> 只需执行并输入一个单词。
我很简单地从特定列表项中提取了第一个定义。但是,要获得纯数据,我必须在换行符处拆分数据,然后将其剥离以删除多余的列表标签。
我的问题是,有没有一种方法可以提取特定列表中包含的数据,而无需进行上述字符串操作——也许是我还没有看到的漂亮汤中的一个函数?
这是代码的相关部分:
python - 在 python 中解析 HTML - lxml 或 BeautifulSoup?其中哪一个更适合什么样的目的?
据我所知,Python 中的两个主要 HTML 解析库是 lxml 和 BeautifulSoup。我为我正在进行的项目选择了 BeautifulSoup,但我选择它并没有什么特别的原因,只是觉得语法更容易学习和理解。但我看到很多人似乎更喜欢 lxml,而且我听说 lxml 更快。
所以我想知道一个比另一个有什么优势?我什么时候想使用 lxml,什么时候使用 BeautifulSoup 更好?还有其他值得考虑的库吗?
python - BeautifulSoup 抓取可见网页文本
基本上,我想使用 BeautifulSoup 来严格抓取网页上的可见文本。例如,这个网页是我的测试用例。而且我主要想在这里和那里获取正文(文章)甚至一些选项卡名称。我已经尝试过这个SO question中的建议,它返回了很多<script>
我不想要的标签和 html 注释。我无法弄清楚该函数所需的参数findAll()
才能仅获取网页上的可见文本。
那么,我应该如何找到除脚本、评论、css 等之外的所有可见文本?
python - 如何使用 BeautifulSoup 从特定表中获取所有行?
我正在学习 Python 和 BeautifulSoup 从网络上抓取数据,并读取 HTML 表格。我可以将它读入 Open Office,它说它是 Table #11。
看起来 BeautifulSoup 是首选,但谁能告诉我如何获取特定表和所有行?我查看了模块文档,但无法理解它。我在网上找到的许多示例似乎比我需要的要多。
python - 无法在 BeautifulSoup 中美化抓取的 html
我有一个小脚本,用于urllib2
获取网站内容、查找所有链接标签、在顶部和底部附加一小段 HTML,然后我尝试美化它。它不断返回 TypeError: sequence item 1: expected string, Tag found。我环顾四周,我真的找不到问题。一如既往,任何帮助,非常感谢。
这是追溯:
python - 相当于lxml中Beautiful Soup的renderContents()方法?
tag.renderContents()
lxml中是否有相当于Beautiful Soup的方法?
我尝试过使用element.text
,但它不会呈现子标签,以及''.join(etree.tostring(child) for child in element)
,但不会呈现子文本。我能找到的最接近的是etree.tostring(element)
,但这会呈现 的开始和结束标签element
,这是我不想要的。
是否有我忽略的另一种方法(或实现此目的的替代方法)?
python - 我如何从 BeautifulSoup 中获取 CData
我有一个我正在抓取的网站,它具有以下类似的结构。我希望能够从 CData 块中获取信息。
我正在使用 BeautifulSoup 从页面中提取其他信息,所以如果解决方案可以使用它,它将有助于降低我的学习曲线,因为我是一个 python 新手。具体来说,我想了解隐藏在 CData 语句中的两种不同类型的数据。第一个只是文本我很确定我可以在它上面扔一个正则表达式并得到我需要的东西。对于第二种类型,如果我可以将包含 html 元素的数据放入它自己的 beautifulsoup 中,我可以解析它。
我只是在学习python和beautifulsoup,所以我正在努力寻找能够单独给我CData的神奇咒语。
python - BeautifulSoup HTML 表格解析
我正在尝试从该站点解析信息(html 表):http ://www.511virginia.org/RoadConditions.aspx?j=All&r=1
目前我正在使用 BeautifulSoup,我的代码看起来像这样
问题在于开始列和结束列。他们只是被打印为“无”
输出:
我知道它们被存储在列列表中,但似乎额外的链接标记正在混淆原始 html 的解析,如下所示:
所以应该打印的是:
任何建议或帮助表示赞赏,并提前感谢您。
python - 使用python向aspx页面提交查询并从其中抓取结果?
我正在尝试获取对此人口统计工具页面的一批查询的结果:http: //adlab.microsoft.com/Demographics-Prediction/DPUI.aspx
表单上的 POST 操作调用相同的页面 (_self),并且可能正在发布一些事件数据。我在 stackoverflow 上的另一篇文章中读到,aspx 页面通常需要一些视图状态和验证数据。我是否只是从请求中保存这些,重新发送 POST 请求?
还是有更清洁的方法来做到这一点?其中一个 aspx viewstate 参数大约有 1000 个字符,将其粘贴到我的代码中令人难以置信的丑陋让我认为必须有更好的方法。我可以阅读的任何和所有参考资料都会有所帮助,谢谢!
python - 如何使用 Python 和 Beautiful Soup 有条件地获取一些数据
抱歉,如果您觉得有人问过这个问题,但我已经阅读了相关问题并且对 Python 很陌生,我无法找到如何以干净的方式编写此请求。
现在我有这个最小的 Python 代码:
它检索 href 包含单词 player 的所有链接。
现在我需要解析的 HTML 看起来像这样:
1 包含玩家的等级。我希望能够在字典中检索这些数据:
- 秩
- 玩家的名字
- 链接到详细页面(此处/Tennis/Players/Top-Players/Roger-Federer.aspx)
你能给我一些指示,或者如果这很容易帮助我构建这段代码?我不确定如何在 Beautiful Soup 中提出请求。
安东尼