问题标签 [beautifulsoup]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
6299 浏览

python - 使用 BeautifulSoup 选择特定的子元素

我正在阅读 BeautifulSoup 以对一些非常重的 html 页面进行屏幕抓取。通过 BeautifulSoup 的文档,我似乎找不到选择子元素的简单方法。

给定html:

鉴于我有对象顶部,我想要一种简单的方法来获得“我想要的内容”。来到 BeautifulSoup,我认为这很容易,类似于 topobj.nodes[1].nodes[0].string。相反,我只看到变量和函数也返回元素以及文本节点、注释等。

我错过了什么吗?或者我真的需要使用 .find() 或者更糟糕的是在 .contents 变量上使用 list comphrensions。

原因是我不相信网页的空白是相同的,所以我想忽略它,只遍历元素。

0 投票
1 回答
600 浏览

python - Pamie 和 python-win32 问题 pamie3 不工作

目前我正在制作一些网页抓取脚本。我选择 PAMIE 来使用我的脚本。实际上我是 python 和编程的新手。所以我不知道,如果我使用 PAMIE,制作与 win32-python 相关的脚本真的很有帮助。好的,我的问题是,在我制作脚本时,我遇到了两个问题。首先,我想让我的脚本与 Beautifulsoup 和 PAMIE 一起工作。或者它也可以..如果可以一起使用本地 Internet Explorer 界面。

但这对我不起作用。我正在使用 PAMIE3 版本。即使我更改为 pamie 2b 版本,我也无法使其正常工作。

我的第二个问题是,在我制作脚本时,我想有时我需要正常的 IE 界面。是否可以将 PAMIE 的 IE 界面更改为普通的 IE 界面(InternetExplorer.Application)?我不想打开新的 IE 窗口来使用普通的 IE 界面,想继续使用当前 PAMIE 的 IE 窗口。对不起我糟糕的英语保罗

0 投票
1 回答
1918 浏览

python - BeautifulSoup 与 Jython

我刚刚尝试使用 Jython (2.5.1) 运行 BeautifulSoup (3.1.0.1),我惊讶地发现它比 CPython 慢了多少。使用 CPython解析页面 ( http://www.fixprotocol.org/specifications/fields/5000-5999 ) 只需不到一秒(准确地说是 0.844 秒)。使用 Jython 需要 564 秒 - 几乎是 700 倍。

谁能证实这个结果?Jython 的运行速度比 CPython 慢 700 倍似乎是不合理的。也许我的设置有问题。

[编辑] 这是我用来测试的代码(当然我下载了上面提到的 HTML 文件):

0 投票
2 回答
7241 浏览

python - BeautifulSoup - 提取属性值

如果 Beautiful Soup 给了我这样的锚标签:

我将如何检索href属性的值?

0 投票
1 回答
171 浏览

python - 在 BeautifulSoup 结果上使用 md5

我试图在网页上使用 md5 算法来避免看到重复。有没有一种简单的方法可以将 beautifulsoup 的结果转换为 md5 可消化的字符串?

非常感谢

0 投票
2 回答
537 浏览

python - BeautifulSoup 中的匹配标签

我正在尝试从 beautifulsoup 结果中计算“汤”中的标签数量。我想使用正则表达式,但遇到了麻烦。我试过的代码如下:

re不允许reg_exp_tag,给出正则表达式错误的意外结束。

任何帮助将非常感激!

谢谢

0 投票
4 回答
2250 浏览

python - BeautifulSoup 正在省略页面主体

BeautifulSoup 新手...需要帮助

这是代码示例...

当我使用 url1 时,我得到了一个很好的页面转储。当我使用 url2(我需要的那个)时。我得到没有身体的输出。

有任何想法吗?

0 投票
3 回答
1776 浏览

python - 让 BeautifulSoup 忽略脚本标签内的内容

我一直在尝试让 BeautifulSoup (3.1.0.1) 解析一个 html 页面,该页面有很多在标签内生成 html 的 javascript。一个示例片段如下所示:

BeautifulSoup 似乎无法处理这个问题,并抱怨 onMouseOver=**\"**menuOver_3821();\" 周围的“格式错误的开始标签”。似乎尝试解析由脚本块内的javascript生成的xml?!?

任何想法如何让 BeautifulSoup 忽略脚本标签内容?

我已经看到了使用 lxml 的其他建议,但不能,因为它必须在 Google AppEngine 上运行。

0 投票
4 回答
1111 浏览

xml - perl 中的 BeautifulSoup.findAll()

我需要从 XML 文件中提取所有“NodeGroup”元素:

如果我可以使用 python 和 BeautifulSoup,我会解析 xml 并调用类似:

但是我使用的是 Perl 和 Perl 的 XML 模块,所以我使用了 XML::Simple 的 XMLIn,递归遍历每个散列键,检查值是否是散列,检查它是否是“NodeGroup”散列等。

我认为 Perl 的 XML 模块之一中有类似 soup.findAll() 的东西,但我找不到它。如何在 Perl 中执行“soup.findAll('nodegroups')”?

0 投票
2 回答
5334 浏览

python - BeautifulSoup - 获取无 HTML 内容的简单方法

我正在使用此代码在页面中查找所有有趣的链接:

它的工作做得很好。不幸的是,在这个标签里面有很多嵌套的标签,比如fontb和不同的东西......我只想得到文本内容,没有任何其他 html 标签。

链接示例:

当然它很丑(而且标记并不总是一样的!)我想得到:

在文档中说要text=True在 findAll 方法中使用,但它会忽略我的正则表达式。为什么?我该如何解决?