问题标签 [beautifulsoup]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
2444 浏览

python - 我可以更改 BeautifulSoup 将 XML 标记转换为小写的行为吗?

我正在编写代码来解析用 XML 编写的配置文件,其中 XML 标记是大小写混合的,并且大小写很重要。Beautiful Soup 似乎默认将 XML 标记转换为小写,我想更改此行为。

我不是第一个就这个主题提出问题的人[见这里]。但是,我不明白该问题的答案,并且在 BeautifulSoup-3.1.0.1 BeautifulSoup.py 似乎不包含任何“ encodedName”或“ Tag.__str__”实例

0 投票
2 回答
2846 浏览

python - 将多个 html 文件抓取到 CSV

我正在尝试从硬盘驱动器上的 1200 多个 .htm 文件中删除行。在我的电脑上,它们位于“file:///home/phi/Data/NHL/pl07-08/PL020001.HTM”。这些 .htm 文件从 *20001.htm 到 *21230.htm 是连续的。我的计划是最终通过电子表格应用程序将我的数据扔到 MySQL 或 SQLite 中,或者如果我能从这个过程中得到一个干净的 .csv 文件,就直接输入。

这是我第一次尝试编写代码(Python)、抓取,我刚刚在我蹩脚的 pentium IV 上安装了 Ubuntu 9.04。不用说我是新手并且有一些障碍。

如何让 mechanize 按顺序浏览目录中的所有文件。机械化甚至可以做到这一点吗?mechanize/Python/BeautifulSoup 可以读取 'file:///' 样式的 url,还是有其他方法可以将其指向 /home/phi/Data/NHL/pl07-08/PL020001.HTM?以 100 或 250 个文件增量执行此操作还是仅发送所有 1230 个文件是否明智?

我只需要以“”开头并以“ <tr class="evenColor">”结尾的行</tr>。理想情况下,我只想要其中包含“SHOT”|“MISS”|“GOAL”的行,但我想要整行(每一列)。请注意,“目标”是粗体的,所以我必须指定这个吗?每个 htm 文件有 3 个表。

此外,我希望将父文件的名称(pl020001.htm)包含在我抓取的行中,这样我就可以在最终数据库中自己的列中标识它们。我什至不知道从哪里开始。这是我到目前为止所拥有的:

我应该使用 IDLE 还是类似的东西?只是 Ubuntu 9.04 中的终端?

0 投票
0 回答
4393 浏览

php - php 有什么像 hpricot 或美丽的汤之类的吗?

可能的重复:
用于 PHP 的强大、成熟的 HTML 解析器

我正在寻找一种在 php 中解析和修改 html 文档服务器端的好方法。美丽的汤和 hpricot 看起来是非常好的工具,但它们不适用于 php。有没有什么好的库可以在 php 中做到这一点?整洁似乎部分是我正在寻找的,但看起来你不能在整洁中使用选择器等。

0 投票
1 回答
15296 浏览

python - 为什么我在 Python 中使用 BeautifulSoup 得到“'ResultSet' 没有属性 'findAll'”?

所以我正在慢慢学习Python,并试图制作一个简单的函数,从在线游戏的高分页面中提取数据。这是我将其他人的代码重写为一个函数(这可能是问题),但我收到了这个错误。这是代码:

提前致谢。

0 投票
2 回答
46396 浏览

python - 如何在美丽的汤中获得嵌套元素

我正在为在 td 中获取一些 href 所需的语法而苦苦挣扎。table、tr 和 td 元素没有任何类或 id。

如果我想在这个例子中抓住锚点,我需要什么?

<tr><td><a>...

谢谢

0 投票
16 回答
288105 浏览

python - 使用 python 和 BeautifulSoup 从网页中检索链接

如何检索网页的链接并使用 Python 复制链接的 url 地址?

0 投票
3 回答
6705 浏览

python - 将 HTML 行解析为 CSV

首先,html 行如下所示:

我会展示真正的 html,但我很抱歉说不知道如何阻止它。感到羞耻

使用 BeautifulSoup (Python) 或任何其他推荐的屏幕抓取/解析方法,我想将同一目录中的大约 1200 个 .htm 文件输出为 CSV 格式。这最终将进入 SQL 数据库。每个目录代表一年,我计划至少做 5 年。

glob根据一些建议,我一直在玩弄这是最好的方法。这就是我到目前为止所拥有的并且被卡住了。

我意识到这很丑陋,但这是我第一次尝试这样的事情。在意识到我不必手动复制数千个文件并将其粘贴到 Excel 中之后,我花了几个月的时间才解决这个问题。我也意识到我可以因为沮丧而反复踢我的电脑,但它仍然有效(不推荐)。我快接近了,我需要知道接下来要做什么来制作这些 CSV 文件。请帮忙,否则我的显示器终于被锤击了。

0 投票
3 回答
4632 浏览

python - 如何修复此错误或对此错误进行例外处理

我正在创建一个从任何网页获取图像网址的代码,该代码在 python 中并使用 BeutifulSoup 和 httplib2。当我运行代码时,我得到下一个错误:

有人可以向我解释如何修复或排除错误

0 投票
3 回答
2856 浏览

python - 为什么 BeautifulSoup 会抛出这个 HTMLParseError?

我认为 BeautifulSoup 将能够处理格式错误的文档,但是当我将页面源发送给它时,会打印以下回溯:

它不应该能够处理这种事情吗?如果它可以处理它们,我该怎么做?如果没有,是否有可以处理格式错误的文档的模块?

编辑:这是一个更新。我使用 Firefox 将页面保存在本地,并尝试从文件内容创建一个汤对象。这就是 BeautifulSoup 失败的地方。如果我尝试直接从网站创建一个汤对象,它可以工作。这是给汤带来麻烦的文件。

0 投票
3 回答
4728 浏览

python - 简单的python / Beautiful Soup 类型的问题

我正在尝试使用Beautiful Soup提取的超链接的 href 属性进行一些简单的字符串操作:

我得到的是:

我应该如何将任何href内容转换为普通字符串?