问题标签 [beautifulsoup]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
457 浏览

javascript - 向文本子字符串添加新元素

假设我有以下字符串:

我正在尝试编写一个 makeSpecial(foo) 函数,其中 foo 子字符串将被包装在一个新的 span 元素中,从而导致:

BeautifulSoup 似乎是要走的路,但我无法让它发挥作用。

我也可以将它传递给浏览器并使用 javascript 来完成,但这似乎不是一个好主意。

对此的一些建议将非常有用,尤其是在 python 中。

0 投票
6 回答
8940 浏览

python - BeautifulSoup 的 Python 3 兼容性

BeautifulSoup 是否适用于 Python 3?

如果没有,多久会有港口?会有港口吗?

谷歌没有向我提供任何信息(也许是因为我在寻找错误的东西?)

0 投票
8 回答
8014 浏览

python - 抓取动态网站

抓取大部分内容由看似 ajax 请求生成的动态网站的最佳方法是什么?我以前有过使用 Mechanize、BeautifulSoup 和 python 组合的经验,但我准备尝试一些新的东西。

--编辑--有关更多详细信息:我正在尝试抓取 CNN主数据库。那里有丰富的信息,但似乎没有api。

0 投票
3 回答
1473 浏览

python - 如何在 BeautifulSoup 中找到具有特定属性的所有单元格?

我正在尝试开发一个脚本来从大量 html 表中提取一些数据。一个问题是包含用于创建列标题的信息的行数是不确定的。我发现标题行集的最后一行具有每个带有值的单元格的属性border-bottom。因此我决定找到那些具有属性border-bottom的单元格。如您所见,我初始化了一个列表。我打算找到最终出现在borderCells 列表中的每个单元格的父级。但是,当我运行此代码时,只有一个单元格,即 allCells 中具有属性border-bottom 的第一个单元格被添加到列表borderCells 中。供您参考 allCells 有 193 个单元格,其中 9 个具有 attr 边界底部。因此,我期待borderCells 列表中有九个成员。任何帮助表示赞赏。

0 投票
1 回答
832 浏览

python - 如何使用 BeautifulSoup 获取 colindex 数字?

大约一周前我遇到了一个问题。因为我认为这个解决方案很酷,所以我在这里分享它,同时等待我之前发布的问题的答案。我需要知道表中列标题的相对位置,以便知道如何将列标题与下面行中的数据匹配。我发现我的一些表有以下行作为表中的第一行

我想哇,这很容易,因为数据在 type=body 下面的列中。倒计时我知道在数据行中我需要获取列 [3, 7, 11, 15] 中的值。所以我开始使用这段代码来完成它:

我得到的是 collist=[0, 3, 7, 7, 15]

事实证明,我认为因为第 7 和第 11 位置的单元格看起来完全一样,所以返回了相同的索引位置。我试图弄清楚如何处理这个问题,显然我必须让它们看起来不同。所以我所做的是首先使用 readlines 读取文件的每一行并将空格更改为随机整数,从而使它们看起来不同。

一位朋友指出,我可以通过使用它来降低开销

尽管如此,这些方法中的每一种都为我提供了一个包含 colindex 的列表,用于我的每列标题的位置并在数据行上使用。请注意,替换功能缺少空格,因为我猜 html 导致它消失实际代码使用 r"&.nbsp;" 没有期间

0 投票
3 回答
3306 浏览

python - 如何使用 BeautifulSoup 从 HTML 数据单元中获取文本

我一直在尝试从 HTML 文件中删除一些数据。我有逻辑编码以获得正确的单元格。现在我正在努力获取“单元格”的实际内容:

这是我的 HTML 片段:

headerRows[0][10].contents

请注意,这是来自 Python [] 的列表项。

我需要 Apples Produced 的价值,但无法实现。

任何建议,将不胜感激

对一本解释这一点的好书的建议将赢得我永恒的感激


谢谢你的回答。然而,没有更普遍的答案。如果我的单元格没有粗体属性会怎样

说它是:

生产的苹果

我正在努力学习阅读/理解文档,您的回复将有所帮助

我真的很感激这个帮助。这些答案最好的一点是,从它们中概括起来要容易得多,然后我可以从 BeautifulSoup 文档中做到这一点。我在 Fortran 时代学会了编程,现在我正在学习 python,我对它的力量感到惊讶——BeautifulSoup 就是一个例子。制作一个连贯的整个文档对我来说很难。

干杯

0 投票
5 回答
689 浏览

python - 有没有一种更 Pythonic 的方式来将两个 HTML 标题行与 colspan 合并?

我在 Python 中使用 BeautifulSoup 来解析一些 HTML。我正在处理的问题之一是我遇到标​​题行之间的 colspan 不同的情况。(标题行是需要组合以获得我的行话中的列标题的行)即一列可能跨越其上方或下方的许多列,并且需要根据跨度附加或前置单词。下面是执行此操作的例程。我使用 BeautifulSoup 拉出 colspan 并拉出每行中每个单元格的内容。longHeader 是包含最多项目的标题行的内容,spanLong 是一个列表,其中包含行中每个项目的跨度。这可行,但看起来不是很 Pythonic。

Alos-如果 diff <0,它就不会工作,我可以用我用来让它工作的相同方法来解决这个问题。但在我这样做之前,我想知道是否有人可以快速查看这个并提出一种更 Pythonic 的方法。我是一名长期的 SAS 程序员,所以我很难打破常规——我会像编写 SAS 宏一样编写代码。

0 投票
4 回答
12238 浏览

python - 分解 HTML 以链接文本和目标

给定一个 HTML 链接,例如

如何隔离 url 和文本?

更新

我正在使用 Beautiful Soup,但无法弄清楚如何做到这一点。

我做了

我明白了

为什么我缺少内容?

编辑:按照建议详细说明“卡住”:)

0 投票
3 回答
2177 浏览

python - 这个 Python 消息是什么意思?

我正在尝试安装beautifulsoup。~/.pydistutils.cfg 中的前两行:

0 投票
1 回答
1251 浏览

python - 处理给 BeautifulSoup 的坏链接的最佳方法是什么?

我正在做一些事情,从美味中提取网址,然后使用这些网址来发现相关的提要。

但是,delicious 中的某些书签不是 html 链接,导致 BS 吐槽。基本上,如果 BS 获取链接并且它看起来不像 html,我想丢弃它。

现在,这就是我得到的。

更新:

耶希亚的回答成功了。作为参考,这里有一些获取内容类型的代码: