问题标签 [beautifulsoup]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 Python 解码 HTML 实体
我正在尝试从这里NYTimes.com解码 HTML 条目,但我无法弄清楚我做错了什么。
举个例子:
我试过 BeautifulSoup、decode('iso-8859-1') 和 django.utils.encoding 的 smart_str 都没有成功。
python - 如果对象也有其他类,Beautiful Soup 也找不到 CSS 类
如果一个页面有<div class="class1">
and <p class="class1">
,那么soup.findAll(True, 'class1')
会同时找到它们。
但是,如果它有<p class="class1 class2">
,它将不会被找到。如何找到具有某个类的所有对象,而不管它们是否也有其他类?
javascript - 需要 javascript 支持的网页抓取网站
我只想做表单输入和网页抓取等任务,但在需要 javascript 支持的网站上。而且我还需要在同一个会话中输入表单、抓取等。理想情况下,我想要一种从命令行控制网络浏览器的方法。而且我还想只使用 Linux 来完成这一切,所以我不能使用 .NET。
我找到了 Python 的 webbrowser 库,但它的功能看起来非常有限。如果它可以与 mechanize 和 BeautifulSoup 交互,那就太棒了。有什么建议么?谢谢!
php - PHP的机械化和BeautifulSoup?
我想知道是否有类似 Mechanize 或 BeautifulSoup for PHP 的东西?
python - urlopen、BeautifulSoup 和 UTF-8 问题
我只是想检索一个网页,但不知何故,HTML 文件中嵌入了一个外来字符。当我使用“查看源代码”时,这个字符不可见。
我也试过...
如何在不出现此错误的情况下将此网页读入 BeautifulSoup?
python - lxml相当于BeautifulSoup“OR”语法?
我正在将一些 html 解析代码从 BeautifulSoup 转换为 lxml。我正在尝试找出以下 BeautifullSoup 语句的 lxml 等效语法:
基本上我想在文档中找到所有具有“current zzt”或“zzt”类属性的“a”标签。BeautifulSoup 允许传入一个列表、字典,甚至是正则表达式来执行匹配。
lxml 等价物是什么?
谢谢!
python - 涉及带有属性的 HTML 标记的 Python 网页抓取
我正在尝试制作一个网络爬虫,它将解析出版物的网页并提取作者。网页的骨架结构如下:
到目前为止,我一直在尝试使用 BeautifulSoup 和 lxml 来完成这项任务,但是我不确定如何处理这两个 div 标签和 td 标签,因为它们具有属性。除此之外,我不确定是否应该更多地依赖 BeautifulSoup 或 lxml 或两者的组合。我该怎么办?
目前,我的代码如下所示:
我意识到很多导入语句可能是多余的,但我只是复制了我目前在更多源文件中的任何内容。
编辑:我想我并没有说得很清楚,但是我在页面中有多个要抓取的标签。
python - 在 Python 中使用 BeautifulSoup 解析数据
我正在尝试使用 BeautifulSoup 解析 DOM 树并提取作者的姓名。下面是一段 HTML,用于显示我将要抓取的代码的结构。
我的困惑是,当我执行soup.find 时,它会找到我正在搜索的div 标签的第一次出现。之后,我搜索所有“a”链接标签。在这个阶段,我如何从每个链接标签中提取作者姓名并打印出来?有没有办法使用 BeautifulSoup 或者我需要使用正则表达式?如何继续迭代所有其他 div 标签并提取作者姓名?
python - 我应该使用什么纯 Python 库来抓取网站?
我目前有一些用于抓取一些网站的 Ruby 代码。我使用 Ruby 是因为当时我在一个站点上使用 Ruby on Rails,这很有意义。
现在我正在尝试将其移植到 Google App Engine,并一直卡住。
我已经移植了 Python Mechanize 以与 Google App Engine 一起使用,但它不支持使用 XPATH 进行 DOM 检查。
我已经尝试过内置的 ElementTree,但是当它遇到“&mdash”时,它被我给它的第一个 HTML blob 卡住了。
我是继续尝试破解 ElementTree,还是尝试使用其他东西?
谢谢,马克
python - 为什么 BeautifulSoup 会修改我的自闭合元素?
这是我的脚本:
运行时,将打印:
我希望它保持相同的结构。我怎样才能做到这一点?