问题标签 [beautifulsoup]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

28207 问题

0 投票

5 回答

2444 浏览

python - 我可以更改 BeautifulSoup 将 XML 标记转换为小写的行为吗？

我正在编写代码来解析用 XML 编写的配置文件，其中 XML 标记是大小写混合的，并且大小写很重要。Beautiful Soup 似乎默认将 XML 标记转换为小写，我想更改此行为。

我不是第一个就这个主题提出问题的人[见这里]。但是，我不明白该问题的答案，并且在 BeautifulSoup-3.1.0.1 BeautifulSoup.py 似乎不包含任何“ encodedName”或“ Tag.__str__”实例

2009-05-21T07:03:24.187

0 投票

2 回答

2846 浏览

python - 将多个 html 文件抓取到 CSV

我正在尝试从硬盘驱动器上的 1200 多个 .htm 文件中删除行。在我的电脑上，它们位于“file:///home/phi/Data/NHL/pl07-08/PL020001.HTM”。这些 .htm 文件从 *20001.htm 到 *21230.htm 是连续的。我的计划是最终通过电子表格应用程序将我的数据扔到 MySQL 或 SQLite 中，或者如果我能从这个过程中得到一个干净的 .csv 文件，就直接输入。

这是我第一次尝试编写代码（Python）、抓取，我刚刚在我蹩脚的 pentium IV 上安装了 Ubuntu 9.04。不用说我是新手并且有一些障碍。

如何让 mechanize 按顺序浏览目录中的所有文件。机械化甚至可以做到这一点吗？mechanize/Python/BeautifulSoup 可以读取 'file:///' 样式的 url，还是有其他方法可以将其指向 /home/phi/Data/NHL/pl07-08/PL020001.HTM？以 100 或 250 个文件增量执行此操作还是仅发送所有 1230 个文件是否明智？

我只需要以“”开头并以“ <tr class="evenColor">”结尾的行</tr>。理想情况下，我只想要其中包含“SHOT”|“MISS”|“GOAL”的行，但我想要整行（每一列）。请注意，“目标”是粗体的，所以我必须指定这个吗？每个 htm 文件有 3 个表。

此外，我希望将父文件的名称（pl020001.htm）包含在我抓取的行中，这样我就可以在最终数据库中自己的列中标识它们。我什至不知道从哪里开始。这是我到目前为止所拥有的：

我应该使用 IDLE 还是类似的东西？只是 Ubuntu 9.04 中的终端？

python sqlite screen-scraping beautifulsoup mechanize

2009-05-28T21:34:57.490

0 投票

0 回答

4393 浏览

php - php 有什么像 hpricot 或美丽的汤之类的吗？

可能的重复：
用于 PHP 的强大、成熟的 HTML 解析器

我正在寻找一种在 php 中解析和修改 html 文档服务器端的好方法。美丽的汤和 hpricot 看起来是非常好的工具，但它们不适用于 php。有没有什么好的库可以在 php 中做到这一点？整洁似乎部分是我正在寻找的，但看起来你不能在整洁中使用选择器等。

php html parsing beautifulsoup hpricot

2009-06-12T21:49:44.063

0 投票

1 回答

15296 浏览

python - 为什么我在 Python 中使用 BeautifulSoup 得到“'ResultSet' 没有属性 'findAll'”？

所以我正在慢慢学习Python，并试图制作一个简单的函数，从在线游戏的高分页面中提取数据。这是我将其他人的代码重写为一个函数（这可能是问题），但我收到了这个错误。这是代码：

提前致谢。

python urllib2 beautifulsoup

2009-06-14T04:41:27.000

0 投票

2 回答

46396 浏览

python - 如何在美丽的汤中获得嵌套元素

我正在为在 td 中获取一些 href 所需的语法而苦苦挣扎。table、tr 和 td 元素没有任何类或 id。

如果我想在这个例子中抓住锚点，我需要什么？

<tr><td><a>...

谢谢

python beautifulsoup

2009-06-29T14:22:55.327

0 投票

16 回答

288105 浏览

python - 使用 python 和 BeautifulSoup 从网页中检索链接

如何检索网页的链接并使用 Python 复制链接的 url 地址？

python web-scraping hyperlink beautifulsoup

2009-07-03T18:29:56.740

0 投票

3 回答

6705 浏览

python - 将 HTML 行解析为 CSV

首先，html 行如下所示：

我会展示真正的 html，但我很抱歉说不知道如何阻止它。感到羞耻

使用 BeautifulSoup (Python) 或任何其他推荐的屏幕抓取/解析方法，我想将同一目录中的大约 1200 个 .htm 文件输出为 CSV 格式。这最终将进入 SQL 数据库。每个目录代表一年，我计划至少做 5 年。

glob根据一些建议，我一直在玩弄这是最好的方法。这就是我到目前为止所拥有的并且被卡住了。

我意识到这很丑陋，但这是我第一次尝试这样的事情。在意识到我不必手动复制数千个文件并将其粘贴到 Excel 中之后，我花了几个月的时间才解决这个问题。我也意识到我可以因为沮丧而反复踢我的电脑，但它仍然有效（不推荐）。我快接近了，我需要知道接下来要做什么来制作这些 CSV 文件。请帮忙，否则我的显示器终于被锤击了。

python html csv screen-scraping beautifulsoup

2009-07-06T09:50:25.290

0 投票

3 回答

4632 浏览

python - 如何修复此错误或对此错误进行例外处理

我正在创建一个从任何网页获取图像网址的代码，该代码在 python 中并使用 BeutifulSoup 和 httplib2。当我运行代码时，我得到下一个错误：

有人可以向我解释如何修复或排除错误

python beautifulsoup httplib2

2009-07-08T19:15:58.020

0 投票

3 回答

2856 浏览

python - 为什么 BeautifulSoup 会抛出这个 HTMLParseError？

我认为 BeautifulSoup 将能够处理格式错误的文档，但是当我将页面源发送给它时，会打印以下回溯：

它不应该能够处理这种事情吗？如果它可以处理它们，我该怎么做？如果没有，是否有可以处理格式错误的文档的模块？

编辑：这是一个更新。我使用 Firefox 将页面保存在本地，并尝试从文件内容创建一个汤对象。这就是 BeautifulSoup 失败的地方。如果我尝试直接从网站创建一个汤对象，它可以工作。这是给汤带来麻烦的文件。

python exception parsing beautifulsoup malformed

2009-07-10T19:57:17.713

0 投票

3 回答

4728 浏览

python - 简单的python / Beautiful Soup 类型的问题

我正在尝试使用Beautiful Soup提取的超链接的 href 属性进行一些简单的字符串操作：

我得到的是：

我应该如何将任何href内容转换为普通字符串？

python string beautifulsoup

2009-07-20T12:05:38.740

1 2 3 4 5 6 7 8 9 10

问题标签 [beautifulsoup]

Reference