“bs4”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

83 浏览

python - 解析beautifulsoup返回的HTML

我正在尝试在这里解析一些 html 并使用漂亮的汤

在某一点上，我搜索特定的 div 标签，如下所示：

返回的输出如下：

我感兴趣的是括号中的数字，所以我需要进一步处理这些数据。我试过在这个上使用're'正则表达式，但返回的对象没有表示为字符串，所以它不起作用。

2015-08-10T19:15:33.253

0 投票

3 回答

4763 浏览

python - BS4 和 BeautifulSoup 错误来自：无法读取 /var/mail/BeautifulSoup

From Beautiful 导入 Beautiful 立即响应错误“来自：无法读取 /var/mail/BeautifulSoup”。也尝试了 BS4 相同的结果。使用 synaptic 包卸载并重新安装 BS4 和 BeautifulSoup。结果相同。尝试完全删除并得到相同的结果。使用终端，显示未安装 BS4 和 BeautifulSoup。

使用 Python 2.7.6

审查的问题，但只有 2 个回答，他们没有帮助。

有什么建议么？

python beautifulsoup bs4

2015-08-15T15:26:12.190

0 投票

1 回答

668 浏览

python - 使用 Python 和 Beautiful Soup 解析 HTML 时，jsl 标记不显示

一点背景（我是编程的超级新手，所以请耐心等待）：

我正在尝试从谷歌地图中抓取 duration_in_traffic 数字（我知道有一个 API，但这个数据片段仅限于“商业地图”，所以我认为这将是最简单的路线）。

当我使用 Beautiful Soup 查找所有<div>标签时，几乎没有任何东西出现。在仔细检查元素后，看起来页面的大部分都嵌套在一个标签下，如下所示：

我假设这与 javascript 和页面的动态特性有关，但是有没有办法使用 Beautiful Soup 访问这个 jsl 标签下的分区？

python html parsing bs4 jsl

2015-08-18T00:24:48.247

0 投票

0 回答

37 浏览

python-2.7 - 需要帮助从网页中的 TD 提取链接

我是 Python 新手，正在尝试构建一些小型网络爬虫。我正在尝试使用BeautifulSoup在Python 2.7中编写该程序，该程序将从该页面和后续页面中提取所有配置文件 URL

在这里，我试图抓取链接到详细信息页面的所有 URL，例如这个

但是，我不知道如何让我的程序识别这些 URL。它们不在 DIV 类或 ID 中，而是封装在 TD bgcolor 标记中

请告知我如何让我的程序识别这些 URL 并抓取它们。我尝试了以下方法，但都没有奏效

我的完整程序如下：

请帮忙

非常感谢

python-2.7 css-selectors web-scraping beautifulsoup bs4

2015-08-25T09:05:10.203

0 投票

2 回答

1244 浏览

python - python 2.7.10关于import bs4的问题

我成功安装了 bs4，但是当我导入它时，命令行告诉我

我搜索了谷歌，但没有找到解决方案。我们的专家可以帮助我解决这个问题吗？

多谢！

我的系统信息：PC 操作系统：Windows 7 64 位 Python 版本：2.7.10

python beautifulsoup bs4

2015-08-30T03:23:53.567

0 投票

1 回答

4787 浏览

python - 写入 CSV 文件：ValueError: I/O operation on closed file

该代码从卡中抓取了一个单独的事件，但我不断收到此错误：

C:\Python27\python.exe C:/Users/James/PycharmProjects/scraperscrapy /scrapy.py Traceback（最近一次调用最后）：文件“C:/Users/James/PycharmProjects/scraperscrapy/scrapy.py”，第 31 行, 在 writer.writerow(c) ValueError: I/O operation on closed file

我正在使用 pyCharm。

以退出代码 1 完成的过程 Python 即时创建 csv 文件，但我也尝试在项目中创建一个 csv 文件，但仍然收到相同的消息。我认为问题可能出在第 31 行 zip 之后的字符串中。任何帮助表示赞赏。

python file csv beautifulsoup bs4

2015-09-01T17:40:19.343

0 投票

3 回答

3575 浏览

python - BeautifulSoup4 data extract from HTML5 data-* tag

I want to extract just the inner text 24,000.00 from the following tag:

There are many similar tag like this in the page from where I want to extract data.

I'm trying to do this:

But Output is coming : None

I learned from the Bs4 doc that for html5 data-* tag we should use :

As I'm very newbie here so I'm still unable to bring resutls using the method.

python html python-3.x beautifulsoup bs4

2015-09-02T17:54:02.180

0 投票

0 回答

118 浏览

python - Beautiful Soup Python循环迭代未完成

我的代码有两个问题。首先，数据没有在字段标题下正确显示，其次，循环仅从 html 中获取部分数据。代码尝试提取 14 个事件，这些事件都在一个页面上网站。页面中每个事件的 HTML 代码都是相同的，（即 html 只是一遍又一遍地重复）。第一个问题在于结果数据和字段标题。我应该得到这个： Fin，Greyhound，Trap， SP,时间/秒,时间,距离,教练,评论

1,Bernies Toughguy,3,7/4F,3.63,23.91,(培训师: MN Fenwick),"评论: EP,SnLd

2,Gentle Kewell,2,7/2,3.70,24.01 (1 1/4),(教练: JM Liles),评论: MidToRls,RanOn

3,Tintreach Harry,5,3/1,3.72,24.17 (2),(Trainer: ACB Green),"Comment: BmpRnUp&2,Crd 1/4"

4,Colorado Teegan,4,7/1,3.74,24.33 (2),(培训师: MN Fenwick),"评论: Wide,EvCh"

5,Premarket Honey,6,6/1,3.68,24.51 (2 1/4),(Trainer:ACB Green),”Comment: SAw,Crd2”

6,Malbay Roxy,1,7/2,3.81,24.57 (3/4),(培训师: MN Fenwick),"评论: EP,SnLd"

在这里，每条数据都正确落在每个字段（粗体）标题下，即 Finishing Position Dogname 等。但是当我运行程序时，我得到了这个：

Fin,Greyhound,Trap,SP,Time/Sec.,Time/Distance, (Trainer: MN Fenwick),"Comment: EP,SnLd"

1,Bernies Toughguy,3,7/4F,3.63,23.91,（培训师：JM Liles），“评论：MidToRls,RanOn”

2,Gentle Kewell,2,7/2,3.70,24.01 (1 1/4),(训练师: ACB Green),评论: "BmpRnUp& 1/4"

3,Tintreach Harry,5,3/1,3.72,24.17 (2),(Trainer: ACB Green),"评论: "BmpRnUp&2,Crd 1/4"

4,Colorado Teegan,4,7/1,3.74,24.33 (2),(培训师: MN Fenwick),"评论: Wide,EvCh"

5,Premarket Honey,6,6/1,3.68,24.51 (2 1/4),(培训师: JM Liles),"评论: SAw,Crd2"

6,Malbay Roxy,1,7/2,3.81,24.57 (3/4),(训练师: BD O'sullivan),"评语: EP,SnLd"

请注意，在应该包含字段名称的第一行中，我得到了一些字段名称，但最后几个被替换为培训师的姓名和评论，（斜体）这具有弄乱其余部分的效果各个领域的数据。

第二个问题可能与循环迭代有关。正如我已经说过的，页面上的 HTML 非常统一，但是由于某种原因，当我运行程序时，数据在第 5 个参与者（Avenue Bound）处停止，在第 6 个事件中（11.51）在卡片上，当卡片上实际上有 14 个事件时，循环失败了其余的事件。所以循环似乎正在崩溃，但我在 HTML 中看不到任何明显的原因。下面是代码我已经尝试了许多代码变体，但似乎无法破解它。我确实认为我可能必须包含代码来确定循环中的迭代次数，但是 python 循环与 C 循环不同，并且对此我不熟悉找到任何东西。非常感谢任何帮助。

python html web web-scraping bs4

2015-09-04T08:19:18.977

0 投票

1 回答

117 浏览

python - Python 停止处理 import bs4

尝试执行时出现“python.exe 已停止工作”对话框

Python版本是：

我可以采取哪些步骤来调查此问题的根本原因？

PS - 我已经尝试重新安装 beautifulsoup 包，但这并没有解决问题

python beautifulsoup bs4

2015-09-16T11:26:34.853

0 投票

1 回答

176 浏览

python - 使用 bs4 正确提取数据？

这是我在这个网站上的第一个问题，因为我尝试了很多方法来获得我想要的东西，但我没有成功。我尝试从类似于 CraigList 的法国网站中提取两种类型的数据。我的需求很简单，我设法获得了这些信息，但我的摘录中仍然有标签和其他标志。即使使用 .encode(utf-8)，我也有编码问题。

运行此代码时：

我的输出包含等。虽然我已经运行：

对于文章中的艺术： art=art.text.encode('utf-8')

有时，由于产品名称中的“€”或“-”符号，编码不起作用

我的问题是：

为什么“.text.encode()”不能从我的文章对象中清除标签？
为什么我仍然遇到编码问题？

我想我没有按预期使用该功能，但尽管我进行了测试，但我没有得到结果..

提前感谢您的见解。

干杯

乔

python encoding gettext bs4

2015-09-21T19:11:19.177

问题标签 [bs4]

Reference