“beautifulsoup”的相关标签问题

0 投票

3 回答

457 浏览

javascript - 向文本子字符串添加新元素

假设我有以下字符串：

我正在尝试编写一个 makeSpecial(foo) 函数，其中 foo 子字符串将被包装在一个新的 span 元素中，从而导致：

BeautifulSoup 似乎是要走的路，但我无法让它发挥作用。

我也可以将它传递给浏览器并使用 javascript 来完成，但这似乎不是一个好主意。

对此的一些建议将非常有用，尤其是在 python 中。

2008-09-24T02:37:49.427

0 投票

6 回答

8940 浏览

python - BeautifulSoup 的 Python 3 兼容性

BeautifulSoup 是否适用于 Python 3？

如果没有，多久会有港口？会有港口吗？

谷歌没有向我提供任何信息（也许是因为我在寻找错误的东西？）

python python-3.x beautifulsoup porting

Yuvi

2008-09-29T16:49:50.667

0 投票

8 回答

8014 浏览

python - 抓取动态网站

抓取大部分内容由看似 ajax 请求生成的动态网站的最佳方法是什么？我以前有过使用 Mechanize、BeautifulSoup 和 python 组合的经验，但我准备尝试一些新的东西。

--编辑--有关更多详细信息：我正在尝试抓取 CNN主数据库。那里有丰富的信息，但似乎没有api。

python ajax screen-scraping beautifulsoup

2008-10-15T23:04:13.913

0 投票

3 回答

1473 浏览

python - 如何在 BeautifulSoup 中找到具有特定属性的所有单元格？

我正在尝试开发一个脚本来从大量 html 表中提取一些数据。一个问题是包含用于创建列标题的信息的行数是不确定的。我发现标题行集的最后一行具有每个带有值的单元格的属性border-bottom。因此我决定找到那些具有属性border-bottom的单元格。如您所见，我初始化了一个列表。我打算找到最终出现在borderCells 列表中的每个单元格的父级。但是，当我运行此代码时，只有一个单元格，即 allCells 中具有属性border-bottom 的第一个单元格被添加到列表borderCells 中。供您参考 allCells 有 193 个单元格，其中 9 个具有 attr 边界底部。因此，我期待borderCells 列表中有九个成员。任何帮助表示赞赏。

python parsing beautifulsoup

Burch Kealey

2008-10-18T22:37:05.880

0 投票

1 回答

832 浏览

python - 如何使用 BeautifulSoup 获取 colindex 数字？

大约一周前我遇到了一个问题。因为我认为这个解决方案很酷，所以我在这里分享它，同时等待我之前发布的问题的答案。我需要知道表中列标题的相对位置，以便知道如何将列标题与下面行中的数据匹配。我发现我的一些表有以下行作为表中的第一行

我想哇，这很容易，因为数据在 type=body 下面的列中。倒计时我知道在数据行中我需要获取列 [3, 7, 11, 15] 中的值。所以我开始使用这段代码来完成它：

我得到的是 collist=[0, 3, 7, 7, 15]

事实证明，我认为因为第 7 和第 11 位置的单元格看起来完全一样，所以返回了相同的索引位置。我试图弄清楚如何处理这个问题，显然我必须让它们看起来不同。所以我所做的是首先使用 readlines 读取文件的每一行并将空格更改为随机整数，从而使它们看起来不同。

一位朋友指出，我可以通过使用它来降低开销

尽管如此，这些方法中的每一种都为我提供了一个包含 colindex 的列表，用于我的每列标题的位置并在数据行上使用。请注意，替换功能缺少空格，因为我猜 html 导致它消失实际代码使用 r"&.nbsp;" 没有期间

python html parsing beautifulsoup

Burch Kealey

2008-10-18T23:17:38.937

0 投票

3 回答

3306 浏览

python - 如何使用 BeautifulSoup 从 HTML 数据单元中获取文本

我一直在尝试从 HTML 文件中删除一些数据。我有逻辑编码以获得正确的单元格。现在我正在努力获取“单元格”的实际内容：

这是我的 HTML 片段：

headerRows[0][10].contents

请注意，这是来自 Python [] 的列表项。

我需要 Apples Produced 的价值，但无法实现。

任何建议，将不胜感激

对一本解释这一点的好书的建议将赢得我永恒的感激

谢谢你的回答。然而，没有更普遍的答案。如果我的单元格没有粗体属性会怎样

说它是：

生产的苹果

我正在努力学习阅读/理解文档，您的回复将有所帮助

我真的很感激这个帮助。这些答案最好的一点是，从它们中概括起来要容易得多，然后我可以从 BeautifulSoup 文档中做到这一点。我在 Fortran 时代学会了编程，现在我正在学习 python，我对它的力量感到惊讶——BeautifulSoup 就是一个例子。制作一个连贯的整个文档对我来说很难。

干杯

python html parsing beautifulsoup

PyNEwbie

2008-10-21T20:16:13.670

0 投票

5 回答

689 浏览

python - 有没有一种更 Pythonic 的方式来将两个 HTML 标题行与 colspan 合并？

我在 Python 中使用 BeautifulSoup 来解析一些 HTML。我正在处理的问题之一是我遇到标题行之间的 colspan 不同的情况。（标题行是需要组合以获得我的行话中的列标题的行）即一列可能跨越其上方或下方的许多列，并且需要根据跨度附加或前置单词。下面是执行此操作的例程。我使用 BeautifulSoup 拉出 colspan 并拉出每行中每个单元格的内容。longHeader 是包含最多项目的标题行的内容，spanLong 是一个列表，其中包含行中每个项目的跨度。这可行，但看起来不是很 Pythonic。

Alos-如果 diff <0，它就不会工作，我可以用我用来让它工作的相同方法来解决这个问题。但在我这样做之前，我想知道是否有人可以快速查看这个并提出一种更 Pythonic 的方法。我是一名长期的 SAS 程序员，所以我很难打破常规——我会像编写 SAS 宏一样编写代码。

python beautifulsoup

PyNEwbie

2008-11-10T06:17:39.460

0 投票

4 回答

12238 浏览

python - 分解 HTML 以链接文本和目标

给定一个 HTML 链接，例如

如何隔离 url 和文本？

更新

我正在使用 Beautiful Soup，但无法弄清楚如何做到这一点。

我做了

我明白了

为什么我缺少内容？

编辑：按照建议详细说明“卡住”:)

python html regex beautifulsoup

sundeep

2008-11-13T00:38:56.070

0 投票

3 回答

2177 浏览

python - 这个 Python 消息是什么意思？

我正在尝试安装beautifulsoup。~/.pydistutils.cfg 中的前两行：

python macos installation beautifulsoup easy-install

anon

2009-01-17T00:22:25.713

0 投票

1 回答

1251 浏览

python - 处理给 BeautifulSoup 的坏链接的最佳方法是什么？

我正在做一些事情，从美味中提取网址，然后使用这些网址来发现相关的提要。

但是，delicious 中的某些书签不是 html 链接，导致 BS 吐槽。基本上，如果 BS 获取链接并且它看起来不像 html，我想丢弃它。

现在，这就是我得到的。

更新：

耶希亚的回答成功了。作为参考，这里有一些获取内容类型的代码：

python parsing beautifulsoup

Jauder Ho

2009-01-17T06:10:41.080

问题标签 [beautifulsoup]

Reference