问题标签 [bs4]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
606 浏览

python-2.7 - 想使用 bs4 从 html 中获取所有的 java 脚本文件

使用此代码我没有从 html 文档中获取所有 java 脚本。

0 投票
2 回答
857 浏览

python - 美丽的汤不导入

我在 OSX 上,我之前在终端中安装了 bs4。所以尝试再次安装它我得到:

当我尝试导入 bs4 时,出现此错误:

我该如何解决?bs4 文件最初下载到我的 python2.7 文件中,因此我将其复制并粘贴到我的 python 路径上的文件夹中。我很确定这是错误的做法,但我现在应该怎么做才能让它正常工作?我在这里查看了其他类似的问题(诚然有很多),但我还没有找到可行的解决方案。

谢谢!

0 投票
1 回答
729 浏览

python - 如何在安装 Python 3.4 的同时为 Python 2.7 安装 BeautifulSoup4?

我的 Windows 8.1 系统上安装了 Python 2.7.11 和 Python 3.4.1。我已经安装BeautifulSoup4了 pip 来运行代码(不是我的)。但是,pip 自动将 bs4 安装到 Python 3.4.1。(我检查了它是否安装在C://Python34/lib/site-packages/bs4

我已经使用命令提示符,将目录更改为 C:\Python27(安装 Python 2.7 的位置),然后从该目录中 pip install bs4,但它不起作用。我已经从 Python 3.4 复制了 bs4 文件夹,但它也不起作用。它只给出了另一个导入错误:没有名为 html.entities 的模块。

如何在 Python 2.7 上安装 bs4?提前致谢。

0 投票
1 回答
460 浏览

python - 如何使用 Beautiful Soup 将 HTML 5 音频标签添加到 HTML 文档

我正在编写一个脚本,使用 Beautiful Soup 4 用新的 HTML 5 音频/视频元素替换旧的 Flash 音频/视频元素,但是我很难创建以下格式的音频标签:

我尝试在 Python Interpreter 中使用它,但没有得到任何结果。

那么有没有办法向音频添加“控件”或者我应该使用其他库?还有一种方法可以指定没有结束标签的标签,例如使用源标签?

我也尝试将元素添加为 NavigableStrings 并将它们附加到它们应该在的位置,但我遇到了编码问题,所以我尝试指定编码格式 - utf-8 然后指定soup.prettify(formatter=None) 但是脚本不断因 ascii 错误而崩溃...

0 投票
0 回答
166 浏览

python - BeautifulSoup4 性能

这是一段简单的代码,用于查找具有特定 id 的元素。例如,我拿了大的随机 Wiki 文章。

测试代码:

我有这个输出:

问题是:就性能而言,这绝对是一场灾难。这是否意味着 BS 内部没有任何类型的索引,并且无论我需要查找什么,都会一次又一次地遍历整个 DOM 树来执行查找操作?或者我不完全了解如何有效地执行查找操作?当有很多查找操作(100+)时,这可能是一个严重的瓶颈,我不能说找到问题是非常明显的。

0 投票
2 回答
747 浏览

python - BeautifulSoup 输出保持 []

我正在尝试使用 BeautifulSoup + python 请求从网站上抓取文本。但它只是将 [] 作为输出。

输出:

我试过了;

我究竟做错了什么?

0 投票
1 回答
9035 浏览

python - 禁止在 beautifulsoup 中显示 url 警告

我正在使用 Beautiful Soup 4 来解析一些从 Internet 上抓取的 html 格式的文本。有时,此文本只是指向某个网站的链接。BS4 非常生气的一个事实:

我很清楚这个事实,我只想解释文本输入,而不是听讲座。我使用控制台来监视脚本的活动,它被一个非常愤怒的库弄乱了。

有什么方法可以抑制或禁用此警告?

0 投票
2 回答
14611 浏览

python - BeautifulSoup 输出到 .txt 文件

我正在尝试将我的数据导出为 .txt 文件

什么应该放在:

去工作?

我还试图让 .txt 文件的名称与 url 相同,我应该使用字符串吗?


0 投票
2 回答
54 浏览

selenium - 如何使用BS4检测页面上没有表格数据

我在使用 BS4 解析这个 HTML 表时遇到了困难。有时该页面没有付款数据,并且会显示“没有待处理的清单付款”。其他时候,该页面将列出所有到期的未决付款。我想将此数据输出到一个数组中。

在此处输入图像描述

在此处输入图像描述

在大多数情况下,解决了。我做了这样的事情:

0 投票
2 回答
130 浏览

python - 无法让 Web Scrape 抓取所需的所有数据

我正在做一个项目,我试图从这个维基百科页面中抓取数据,我想要带有年份的列(恰好是 a <th>)和第四列“沃尔特迪斯尼公园和度假村”。

代码:

现在,当我通过终端运行它时,所有打印的都是 1991(两次)和 2,794。我需要它来打印沃尔特迪斯尼乐园和度假村的所有年份和相关收入。我也试图让它写入文件“scrape_project.tx”

任何帮助,将不胜感激!