问题标签 [beautifulsoup]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
22414 浏览

python - 使用 Python 解码 HTML 实体

我正在尝试从这里NYTimes.com解码 HTML 条目,但我无法弄清楚我做错了什么。

举个例子:

我试过 BeautifulSoup、decode('iso-8859-1') 和 django.utils.encoding 的 smart_str 都没有成功。

0 投票
4 回答
15738 浏览

python - 如果对象也有其他类,Beautiful Soup 也找不到 CSS 类

如果一个页面有<div class="class1">and <p class="class1">,那么soup.findAll(True, 'class1')会同时找到它们。

但是,如果它有<p class="class1 class2">,它将不会被找到。如何找到具有某个类的所有对象,而不管它们是否也有其他类?

0 投票
2 回答
2708 浏览

javascript - 需要 javascript 支持的网页抓取网站

可能重复:
从包含大量 Javascript 的网页中抓取屏幕

我只想做表单输入和网页抓取等任务,但在需要 javascript 支持的网站上。而且我还需要在同一个会话中输入表单、抓取等。理想情况下,我想要一种从命令行控制网络浏览器的方法。而且我还想只使用 Linux 来完成这一切,所以我不能使用 .NET。

我找到了 Python 的 webbrowser 库,但它的功能看起来非常有限。如果它可以与 mechanize 和 BeautifulSoup 交互,那就太棒了。有什么建议么?谢谢!

0 投票
2 回答
16482 浏览

php - PHP的机械化和BeautifulSoup?

我想知道是否有类似 Mechanize 或 BeautifulSoup for PHP 的东西?

0 投票
2 回答
10262 浏览

python - urlopen、BeautifulSoup 和 UTF-8 问题

我只是想检索一个网页,但不知何故,HTML 文件中嵌入了一个外来字符。当我使用“查看源代码”时,这个字符不可见。

我也试过...

如何在不出现此错误的情况下将此网页读入 BeautifulSoup?

0 投票
1 回答
2335 浏览

python - lxml相当于BeautifulSoup“OR”语法?

我正在将一些 html 解析代码从 BeautifulSoup 转换为 lxml。我正在尝试找出以下 BeautifullSoup 语句的 lxml 等效语法:

基本上我想在文档中找到所有具有“current zzt”或“zzt”类属性的“a”标签。BeautifulSoup 允许传入一个列表、字典,甚至是正则表达式来执行匹配。

lxml 等价物是什么?

谢谢!

0 投票
4 回答
8867 浏览

python - 涉及带有属性的 HTML 标记的 Python 网页抓取

我正在尝试制作一个网络爬虫,它将解析出版物的网页并提取作者。网页的骨架结构如下:

到目前为止,我一直在尝试使用 BeautifulSoup 和 lxml 来完成这项任务,但是我不确定如何处理这两个 div 标签和 td 标签,因为它们具有属性。除此之外,我不确定是否应该更多地依赖 BeautifulSoup 或 lxml 或两者的组合。我该怎么办?

目前,我的代码如下所示:

我意识到很多导入语句可能是多余的,但我只是复制了我目前在更多源文件中的任何内容。

编辑:我想我并没有说得很清楚,但是我在页面中有多个要抓取的标签。

0 投票
2 回答
18940 浏览

python - 在 Python 中使用 BeautifulSoup 解析数据

我正在尝试使用 BeautifulSoup 解析 DOM 树并提取作者的姓名。下面是一段 HTML,用于显示我将要抓取的代码的结构。

我的困惑是,当我执行soup.find 时,它会找到我正在搜索的div 标签的第一次出现。之后,我搜索所有“a”链接标签。在这个阶段,我如何从每个链接标签中提取作者姓名并打印出来?有没有办法使用 BeautifulSoup 或者我需要使用正则表达式?如何继续迭代所有其他 div 标签并提取作者姓名?

0 投票
5 回答
1958 浏览

python - 我应该使用什么纯 Python 库来抓取网站?

我目前有一些用于抓取一些网站的 Ruby 代码。我使用 Ruby 是因为当时我在一个站点上使用 Ruby on Rails,这很有意义。

现在我正在尝试将其移植到 Google App Engine,并一直卡住。

我已经移植了 Python Mechanize 以与 Google App Engine 一起使用,但它不支持使用 XPATH 进行 DOM 检查。

我已经尝试过内置的 ElementTree,但是当它遇到“&mdash”时,它被我给它的第一个 HTML blob 卡住了。

我是继续尝试破解 ElementTree,还是尝试使用其他东西?

谢谢,马克

0 投票
1 回答
655 浏览

python - 为什么 BeautifulSoup 会修改我的自闭合元素?

这是我的脚本:

运行时,将打印:

我希望它保持相同的结构。我怎样才能做到这一点?