问题标签 [beautifulsoup]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

28207 问题

0 投票

4 回答

22414 浏览

python - 使用 Python 解码 HTML 实体

我正在尝试从这里NYTimes.com解码 HTML 条目，但我无法弄清楚我做错了什么。

举个例子：

我试过 BeautifulSoup、decode('iso-8859-1') 和 django.utils.encoding 的 smart_str 都没有成功。

2009-07-30T19:47:34.107

0 投票

4 回答

15738 浏览

python - 如果对象也有其他类，Beautiful Soup 也找不到 CSS 类

如果一个页面有<div class="class1">and <p class="class1">，那么soup.findAll(True, 'class1')会同时找到它们。

但是，如果它有<p class="class1 class2">，它将不会被找到。如何找到具有某个类的所有对象，而不管它们是否也有其他类？

python screen-scraping beautifulsoup

2009-08-07T03:34:19.997

0 投票

2 回答

2708 浏览

javascript - 需要 javascript 支持的网页抓取网站

可能重复：
从包含大量 Javascript 的网页中抓取屏幕

我只想做表单输入和网页抓取等任务，但在需要 javascript 支持的网站上。而且我还需要在同一个会话中输入表单、抓取等。理想情况下，我想要一种从命令行控制网络浏览器的方法。而且我还想只使用 Linux 来完成这一切，所以我不能使用 .NET。

我找到了 Python 的 webbrowser 库，但它的功能看起来非常有限。如果它可以与 mechanize 和 BeautifulSoup 交互，那就太棒了。有什么建议么？谢谢！

javascript webforms screen-scraping beautifulsoup mechanize

2009-08-11T21:38:53.073

0 投票

2 回答

16482 浏览

php - PHP的机械化和BeautifulSoup？

我想知道是否有类似 Mechanize 或 BeautifulSoup for PHP 的东西？

php python beautifulsoup mechanize

2009-08-12T01:24:42.977

0 投票

2 回答

10262 浏览

python - urlopen、BeautifulSoup 和 UTF-8 问题

我只是想检索一个网页，但不知何故，HTML 文件中嵌入了一个外来字符。当我使用“查看源代码”时，这个字符不可见。

我也试过...

如何在不出现此错误的情况下将此网页读入 BeautifulSoup？

python utf-8 urllib2 beautifulsoup

2009-08-24T05:17:24.323

0 投票

1 回答

2335 浏览

python - lxml相当于BeautifulSoup“OR”语法？

我正在将一些 html 解析代码从 BeautifulSoup 转换为 lxml。我正在尝试找出以下 BeautifullSoup 语句的 lxml 等效语法：

基本上我想在文档中找到所有具有“current zzt”或“zzt”类属性的“a”标签。BeautifulSoup 允许传入一个列表、字典，甚至是正则表达式来执行匹配。

lxml 等价物是什么？

谢谢！

python beautifulsoup lxml

2009-09-05T23:04:18.807

0 投票

4 回答

8867 浏览

python - 涉及带有属性的 HTML 标记的 Python 网页抓取

我正在尝试制作一个网络爬虫，它将解析出版物的网页并提取作者。网页的骨架结构如下：

到目前为止，我一直在尝试使用 BeautifulSoup 和 lxml 来完成这项任务，但是我不确定如何处理这两个 div 标签和 td 标签，因为它们具有属性。除此之外，我不确定是否应该更多地依赖 BeautifulSoup 或 lxml 或两者的组合。我该怎么办？

目前，我的代码如下所示：

我意识到很多导入语句可能是多余的，但我只是复制了我目前在更多源文件中的任何内容。

编辑：我想我并没有说得很清楚，但是我在页面中有多个要抓取的标签。

python beautifulsoup lxml screen-scraping

2009-09-08T02:23:25.833

0 投票

2 回答

18940 浏览

python - 在 Python 中使用 BeautifulSoup 解析数据

我正在尝试使用 BeautifulSoup 解析 DOM 树并提取作者的姓名。下面是一段 HTML，用于显示我将要抓取的代码的结构。

我的困惑是，当我执行soup.find 时，它会找到我正在搜索的div 标签的第一次出现。之后，我搜索所有“a”链接标签。在这个阶段，我如何从每个链接标签中提取作者姓名并打印出来？有没有办法使用 BeautifulSoup 或者我需要使用正则表达式？如何继续迭代所有其他 div 标签并提取作者姓名？

python html parsing beautifulsoup

2009-10-01T02:59:32.803

0 投票

5 回答

1958 浏览

python - 我应该使用什么纯 Python 库来抓取网站？

我目前有一些用于抓取一些网站的 Ruby 代码。我使用 Ruby 是因为当时我在一个站点上使用 Ruby on Rails，这很有意义。

现在我正在尝试将其移植到 Google App Engine，并一直卡住。

我已经移植了 Python Mechanize 以与 Google App Engine 一起使用，但它不支持使用 XPATH 进行 DOM 检查。

我已经尝试过内置的 ElementTree，但是当它遇到“&mdash”时，它被我给它的第一个 HTML blob 卡住了。

我是继续尝试破解 ElementTree，还是尝试使用其他东西？

谢谢，马克

python google-app-engine xpath beautifulsoup mechanize

2009-10-13T21:58:03.343

0 投票

1 回答

655 浏览

python - 为什么 BeautifulSoup 会修改我的自闭合元素？

这是我的脚本：

运行时，将打印：

我希望它保持相同的结构。我怎样才能做到这一点？

python xml beautifulsoup

2009-10-14T16:19:14.263

1 2 3 4 5 6 7 8 9 10

问题标签 [beautifulsoup]

Reference