问题标签 [bs4]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
83 浏览

python - 解析beautifulsoup返回的HTML

我正在尝试在这里解析一些 html 并使用漂亮的汤

在某一点上,我搜索特定的 div 标签,如下所示:

返回的输出如下:

我感兴趣的是括号中的数字,所以我需要进一步处理这些数据。我试过在这个上使用're'正则表达式,但返回的对象没有表示为字符串,所以它不起作用。

0 投票
3 回答
4763 浏览

python - BS4 和 BeautifulSoup 错误来自:无法读取 /var/mail/BeautifulSoup

From Beautiful 导入 Beautiful 立即响应错误“来自:无法读取 /var/mail/BeautifulSoup”。也尝试了 BS4 相同的结果。使用 synaptic 包卸载并重新安装 BS4 和 BeautifulSoup。结果相同。尝试完全删除并得到相同的结果。使用终端,显示未安装 BS4 和 BeautifulSoup。

使用 Python 2.7.6

审查的问题,但只有 2 个回答,他们没有帮助。

有什么建议么?

0 投票
1 回答
668 浏览

python - 使用 Python 和 Beautiful Soup 解析 HTML 时,jsl 标记不显示

一点背景(我是编程的超级新手,所以请耐心等待):

我正在尝试从谷歌地图中抓取 duration_in_traffic 数字(我知道有一个 API,但这个数据片段仅限于“商业地图”,所以我认为这将是最简单的路线)。

当我使用 Beautiful Soup 查找所有<div>标签时,几乎没有任何东西出现。在仔细检查元素后,看起来页面的大部分都嵌套在一个标签下,如下所示:

我假设这与 javascript 和页面的动态特性有关,但是有没有办法使用 Beautiful Soup 访问这个 jsl 标签下的分区?

0 投票
0 回答
37 浏览

python-2.7 - 需要帮助从网页中的 TD 提取链接

我是 Python 新手,正在尝试构建一些小型网络爬虫。我正在尝试使用BeautifulSoup在Python 2.7中编写该程序,该程序将从该页面和后续页面中提取所有配置文件 URL

在这里,我试图抓取链接到详细信息页面的所有 URL,例如这个

但是,我不知道如何让我的程序识别这些 URL。它们不在 DIV 类或 ID 中,而是封装在 TD bgcolor 标记中

请告知我如何让我的程序识别这些 URL 并抓取它们。我尝试了以下方法,但都没有奏效

我的完整程序如下:

请帮忙

非常感谢

0 投票
2 回答
1244 浏览

python - python 2.7.10关于import bs4的问题

我成功安装了 bs4,但是当我导入它时,命令行告诉我

我搜索了谷歌,但没有找到解决方案。我们的专家可以帮助我解决这个问题吗?

多谢 !

我的系统信息:PC 操作系统:Windows 7 64 位 Python 版本:2.7.10

0 投票
1 回答
4787 浏览

python - 写入 CSV 文件:ValueError: I/O operation on closed file

该代码从卡中抓取了一个单独的事件,但我不断收到此错误:

C:\Python27\python.exe C:/Users/James/PycharmProjects/scraperscrapy /scrapy.py Traceback(最近一次调用最后):文件“C:/Users/James/PycharmProjects/scraperscrapy/scrapy.py”,第 31 行, 在 writer.writerow(c) ValueError: I/O operation on closed file

我正在使用 pyCharm。

以退出代码 1 完成的过程 Python 即时创建 csv 文件,但我也尝试在项目中创建一个 csv 文件,但仍然收到相同的消息。我认为问题可能出在第 31 行 zip 之后的字符串中。任何帮助表示赞赏。

0 投票
3 回答
3575 浏览

python - BeautifulSoup4 data extract from HTML5 data-* tag

I want to extract just the inner text 24,000.00 from the following tag:

There are many similar tag like this in the page from where I want to extract data.

I'm trying to do this:

But Output is coming : None

I learned from the Bs4 doc that for html5 data-* tag we should use :

As I'm very newbie here so I'm still unable to bring resutls using the method.

0 投票
0 回答
118 浏览

python - Beautiful Soup Python循环迭代未完成

我的代码有两个问题。首先,数据没有在字段标题下正确显示,其次,循环仅从 html 中获取部分数据。代码尝试提取 14 个事件,这些事件都在一个页面上网站。页面中每个事件的 HTML 代码都是相同的,(即 html 只是一遍又一遍地重复)。第一个问题在于结果数据和字段标题。我应该得到这个: Fin,Greyhound,Trap, SP,时间/秒,时间,距离,教练,评论

1,Bernies Toughguy,3,7/4F,3.63,23.91,(培训师: MN Fenwick),"评论: EP,SnLd

2,Gentle Kewell,2,7/2,3.70,24.01 (1 1/4),(教练: JM Liles),评论: MidToRls,RanOn

3,Tintreach Harry,5,3/1,3.72,24.17 (2),(Trainer: ACB Green),"Comment: BmpRnUp&2,Crd 1/4"

4,Colorado Teegan,4,7/1,3.74,24.33 (2),(培训师: MN Fenwick),"评论: Wide,EvCh"

5,Premarket Honey,6,6/1,3.68,24.51 (2 1/4),(Trainer:ACB Green),”Comment: SAw,Crd2”

6,Malbay Roxy,1,7/2,3.81,24.57 (3/4),(培训师: MN Fenwick),"评论: EP,SnLd"

在这里,每条数据都正确落在每个字段(粗体)标题下,即 Finishing Position Dogname 等。但是当我运行程序时,我得到了这个:

Fin,Greyhound,Trap,SP,Time/Sec.,Time/Distance, (Trainer: MN Fenwick),"Comment: EP,SnLd"

1,Bernies Toughguy,3,7/4F,3.63,23.91,(培训师:JM Liles),“评论:MidToRls,RanOn”

2,Gentle Kewell,2,7/2,3.70,24.01 (1 1/4),(训练师: ACB Green),评论: "BmpRnUp& 1/4"

3,Tintreach Harry,5,3/1,3.72,24.17 (2),(Trainer: ACB Green),"评论: "BmpRnUp&2,Crd 1/4"

4,Colorado Teegan,4,7/1,3.74,24.33 (2),(培训师: MN Fenwick),"评论: Wide,EvCh"

5,Premarket Honey,6,6/1,3.68,24.51 (2 1/4),(培训师: JM Liles),"评论: SAw,Crd2"

6,Malbay Roxy,1,7/2,3.81,24.57 (3/4),(训练师: BD O'sullivan),"评语: EP,SnLd"

请注意,在应该包含字段名称的第一行中,我得到了一些字段名称,但最后几个被替换为培训师的姓名和评论,(斜体)这具有弄乱其余部分的效果各个领域的数据。

第二个问题可能与循环迭代有关。正如我已经说过的,页面上的 HTML 非常统一,但是由于某种原因,当我运行程序时,数据在第 5 个参与者(Avenue Bound)处停止,在第 6 个事件中(11.51)在卡片上,当卡片上实际上有 14 个事件时,循环失败了其余的事件。所以循环似乎正在崩溃,但我在 HTML 中看不到任何明显的原因。下面是代码我已经尝试了许多代码变体,但似乎无法破解它。我确实认为我可能必须包含代码来确定循环中的迭代次数,但是 python 循环与 C 循环不同,并且对此我不熟悉找到任何东西。非常感谢任何帮助。

0 投票
1 回答
117 浏览

python - Python 停止处理 import bs4

尝试执行时出现“python.exe 已停止工作”对话框

Python版本是:

我可以采取哪些步骤来调查此问题的根本原因?

PS - 我已经尝试重新安装 beautifulsoup 包,但这并没有解决问题

0 投票
1 回答
176 浏览

python - 使用 bs4 正确提取数据?

这是我在这个网站上的第一个问题,因为我尝试了很多方法来获得我想要的东西,但我没有成功。我尝试从类似于 CraigList 的法国网站中提取两种类型的数据。我的需求很简单,我设法获得了这些信息,但我的摘录中仍然有标签和其他标志。即使使用 .encode(utf-8),我也有编码问题。

运行此代码时:

  • 我的输出包含等。虽然我已经运行:

对于文章中的艺术: art=art.text.encode('utf-8')

  • 有时,由于产品名称中的“€”或“-”符号,编码不起作用

我的问题是:

  • 为什么“.text.encode()”不能从我的文章对象中清除标签?
  • 为什么我仍然遇到编码问题?

我想我没有按预期使用该功能,但尽管我进行了测试,但我没有得到结果..

提前感谢您的见解。

干杯