问题标签 [bs4]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

387 问题

0 投票

1 回答

432 浏览

python - 不清楚为什么我的函数没有返回

除了一些 Ruby，我的编码背景非常有限，所以如果有更好的方法，请告诉我！

本质上，我有一个充满单词的 .txt 文件。我想导入 .txt 文件并将其转换为列表。然后，我想获取列表中的第一项，将其分配给一个变量，并在发送的外部请求中使用该变量以获取单词的定义。定义被返回，并被放入不同的 .txt 文件中。完成后，我希望代码获取列表中的下一项并再次执行所有操作，直到列表用尽。

下面是我正在进行的代码，以了解我在哪里。我仍在试图弄清楚如何正确地遍历列表，而且我很难解释文档。

如果已经问过这个问题，请提前道歉！我进行了搜索，但找不到任何专门回答我的问题的内容。

我遇到的问题是

我知道这soup.find('pre', text=True)是回归None，但不知道为什么或如何解决它。

python beautifulsoup bs4

2015-12-08T06:59:53.637

0 投票

0 回答

125 浏览

tags - 从没有标签属性的 HTML 表中抓取数据

我正在尝试从 1995 年到 2015 年废弃 Billboards 前 100 名的数据。以下是 URL 的示例链接：
http ://www.umdmusic.com/default.asp?Lang=English&Chart=E&ChDay=20&ChMonth=12&ChYear=2014&ChBand= &ChSong=E
我正在使用 bs4 和 urllib 将页面转换为 txt，然后使用find_all(). 我能够使用以下代码提取专辑：table_data = bsObj.findAll('b').
但是，当我尝试提取统计信息时，我不确定如何提取，因为<td>标签没有属性：

谁能解释我如何提取没有 umdmusic 网站属性的统计数据？

tags attributes urllib bs4

2015-12-11T03:25:24.773

0 投票

0 回答

668 浏览

python - 使用 Python 2.7 下载 Twitter 图片

我正在使用此代码从其 url(line) 下载 twitter 图片。

当 url 指向相册（多张图片）时会出现问题。有没有办法找出网址是否指向图像或图像或相册？我们如何从它的 url 下载完整的专辑？

python twitter urllib bs4

2015-12-17T15:02:59.910

0 投票

1 回答

2279 浏览

python - 使用 BeautifulSoup 提取标签之间的文本

我正在尝试使用 BeautifulSoup 从一系列都遵循类似格式的网页中提取文本。我希望提取的文本的 html 在下面。实际链接在这里：http ://www.p2016.org/ads1/bushad120215.html 。

我想找到一种方法来遍历我文件夹中的所有 html 文件并提取所有标记之间的文本。我在这里包含了我的代码的相关部分：

然而，什么都没有发生。为菜鸟问题道歉，并提前感谢您的帮助。

python regex web-scraping beautifulsoup bs4

2015-12-21T02:48:59.117

0 投票

1 回答

1124 浏览

python -
使用 BeautifulSoup提取文本

不幸的是，我有一系列网页我想从中抓取文本，它们都遵循不同的模式。我正在尝试编写一个在<br>标签之后提取文本的刮板，因为该结构对所有页面都是通用的。

据我所知，这些页面遵循三种基本模式：

正如我现在所拥有的，我正在使用以下循环：

虽然此脚本适用于某些页面，但只能抓取部分或不抓取其他页面的文本。在过去的几天里，我一直在为此烦恼，所以任何帮助将不胜感激。

此外，我已经尝试过这种技术，但无法使其适用于所有页面。

python html regex web-scraping bs4

2015-12-21T22:45:27.597

0 投票

1 回答

42743 浏览

python - “NoneType”对象没有属性“文本”

我应该如何在 dd 中提取“£70,004”文本，省略 dt 中的“寻求投资”文本。

结果：

python beautifulsoup bs4

2015-12-23T11:07:33.973

0 投票

1 回答

2540 浏览

python - BeautifulSoup 无法使用 `html5lib` 解析 html

BeautifulSoup 无法解析带有选项的 html 页面html5lib，但使用该选项可以正常工作html.parser。根据文档，html5lib应该比html.parser，那么为什么我在使用它来解析 html 页面时遇到乱码？

下面是一个可执行的小例子。（修改html5libwith后html.parser，中文输出正常。）

python parsing beautifulsoup bs4

2015-12-25T13:49:28.040

0 投票

2 回答

631 浏览

python - Python 删除 Span 标签并覆盖 Txt 文件

我想在 ping 它之前从文本文档中删除跨度标签，否则它将失败，但我无法让它删除跨度标签并在没有标签的情况下再次保存文件或将新结果保存到数组中保存.

我试图分解或打开包装，但无法得到我想要的结果。

python html beautifulsoup bs4

2016-01-08T00:42:32.523

0 投票

2 回答

45 浏览

python - 使用 Beautifilsoup 在页面中查找特定字符串

我正在使用 bs4 并希望从文档中返回对特定内置 Python 函数的描述，例如从这个页面获取 abs()：

https://docs.python.org/2/library/functions.html

会返回这个：

绝对 (x)

返回一个数字的绝对值。参数可以是普通整数或长整数或浮点数。如果参数是复数，则返回其大小。

<p>除了元素以及如何<p>仅获取该元素及其文本之外，我一直坚持我应该寻找的内容。我知道我可以进行findAll搜索，但我想在不使用页面中的文本的情况下执行此操作（例如，好像用户事先不知道文本是什么）：

python regex bs4

2016-01-09T04:57:02.407

0 投票

1 回答

65 浏览

python - 使用 BeautifulSoup4 从网页获取文本时出现“无”和“无类型对象...”错误

我正试图从 BBC 体育页面中提取主要标题（目前：“温格预测 '活跃' 1 月”）。ID 是“lead-caption”，它位于一个<h2>和一个<a>标签中。我正在使用 Python。

任何帮助将非常感激。谢谢：）

python python-2.7 webpage python-2.x bs4

2016-01-12T21:11:54.413

1 2 3 4 5 6 7 8 9 10