问题标签 [bs4]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

387 问题

0 投票

2 回答

606 浏览

python-2.7 - 想使用 bs4 从 html 中获取所有的 java 脚本文件

使用此代码我没有从 html 文档中获取所有 java 脚本。

python-2.7 bs4

2016-03-10T09:11:36.100

0 投票

2 回答

857 浏览

python - 美丽的汤不导入

我在 OSX 上，我之前在终端中安装了 bs4。所以尝试再次安装它我得到：

当我尝试导入 bs4 时，出现此错误：

我该如何解决？bs4 文件最初下载到我的 python2.7 文件中，因此我将其复制并粘贴到我的 python 路径上的文件夹中。我很确定这是错误的做法，但我现在应该怎么做才能让它正常工作？我在这里查看了其他类似的问题（诚然有很多），但我还没有找到可行的解决方案。

谢谢！

python macos beautifulsoup bs4

2016-03-10T15:04:08.497

0 投票

1 回答

729 浏览

python - 如何在安装 Python 3.4 的同时为 Python 2.7 安装 BeautifulSoup4？

我的 Windows 8.1 系统上安装了 Python 2.7.11 和 Python 3.4.1。我已经安装BeautifulSoup4了 pip 来运行代码（不是我的）。但是，pip 自动将 bs4 安装到 Python 3.4.1。（我检查了它是否安装在C://Python34/lib/site-packages/bs4）

我已经使用命令提示符，将目录更改为 C:\Python27（安装 Python 2.7 的位置），然后从该目录中 pip install bs4，但它不起作用。我已经从 Python 3.4 复制了 bs4 文件夹，但它也不起作用。它只给出了另一个导入错误：没有名为 html.entities 的模块。

如何在 Python 2.7 上安装 bs4？提前致谢。

python windows python-2.7 bs4

2016-03-11T13:05:00.770

0 投票

1 回答

460 浏览

python - 如何使用 Beautiful Soup 将 HTML 5 音频标签添加到 HTML 文档

我正在编写一个脚本，使用 Beautiful Soup 4 用新的 HTML 5 音频/视频元素替换旧的 Flash 音频/视频元素，但是我很难创建以下格式的音频标签：

我尝试在 Python Interpreter 中使用它，但没有得到任何结果。

那么有没有办法向音频添加“控件”或者我应该使用其他库？还有一种方法可以指定没有结束标签的标签，例如使用源标签？

我也尝试将元素添加为 NavigableStrings 并将它们附加到它们应该在的位置，但我遇到了编码问题，所以我尝试指定编码格式 - utf-8 然后指定soup.prettify(formatter=None) 但是脚本不断因 ascii 错误而崩溃...

python html beautifulsoup html5-audio bs4

2016-03-11T21:03:45.520

0 投票

0 回答

166 浏览

python - BeautifulSoup4 性能

这是一段简单的代码，用于查找具有特定 id 的元素。例如，我拿了大的随机 Wiki 文章。

测试代码：

我有这个输出：

问题是：就性能而言，这绝对是一场灾难。这是否意味着 BS 内部没有任何类型的索引，并且无论我需要查找什么，都会一次又一次地遍历整个 DOM 树来执行查找操作？或者我不完全了解如何有效地执行查找操作？当有很多查找操作（100+）时，这可能是一个严重的瓶颈，我不能说找到问题是非常明显的。

python beautifulsoup lxml bs4

2016-03-14T12:43:29.443

0 投票

2 回答

747 浏览

python - BeautifulSoup 输出保持 []

我正在尝试使用 BeautifulSoup + python 请求从网站上抓取文本。但它只是将 [] 作为输出。

输出：

我试过了;

我究竟做错了什么？

python import beautifulsoup python-requests bs4

2016-03-16T11:21:39.590

0 投票

1 回答

9035 浏览

python - 禁止在 beautifulsoup 中显示 url 警告

我正在使用 Beautiful Soup 4 来解析一些从 Internet 上抓取的 html 格式的文本。有时，此文本只是指向某个网站的链接。BS4 非常生气的一个事实：

我很清楚这个事实，我只想解释文本输入，而不是听讲座。我使用控制台来监视脚本的活动，它被一个非常愤怒的库弄乱了。

有什么方法可以抑制或禁用此警告？

python bs4

2016-03-16T15:13:18.763

0 投票

2 回答

14611 浏览

python - BeautifulSoup 输出到 .txt 文件

我正在尝试将我的数据导出为 .txt 文件

什么应该放在：

去工作？

我还试图让 .txt 文件的名称与 url 相同，我应该使用字符串吗？

python operating-system beautifulsoup python-requests bs4

2016-03-16T15:20:51.540

0 投票

2 回答

54 浏览

selenium - 如何使用BS4检测页面上没有表格数据

我在使用 BS4 解析这个 HTML 表时遇到了困难。有时该页面没有付款数据，并且会显示“没有待处理的清单付款”。其他时候，该页面将列出所有到期的未决付款。我想将此数据输出到一个数组中。

在大多数情况下，解决了。我做了这样的事情：

selenium pandas beautifulsoup html-table bs4

2016-03-18T21:08:20.300

0 投票

2 回答

130 浏览

python - 无法让 Web Scrape 抓取所需的所有数据

我正在做一个项目，我试图从这个维基百科页面中抓取数据，我想要带有年份的列（恰好是 a <th>）和第四列“沃尔特迪斯尼公园和度假村”。

代码：

现在，当我通过终端运行它时，所有打印的都是 1991（两次）和 2,794。我需要它来打印沃尔特迪斯尼乐园和度假村的所有年份和相关收入。我也试图让它写入文件“scrape_project.tx”

任何帮助，将不胜感激！

python web-scraping beautifulsoup bs4

2016-03-19T02:24:36.207

1 2 3 4 5 6 7 8 9 10