问题标签 [beautifulsoup]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
32484 浏览

python - 使用 BeautifulSoup 在 HTML 中搜索和替换

我想使用 BeautfulSoup 来搜索和<\a>替换<\a><br>. 我知道如何打开urllib2然后解析以提取所有<a>标签。我想要做的是搜索并用结束标签加上中断替换结束标签。任何帮助,非常感谢。

编辑

我认为这将类似于:

在文档中,有一个:

所以我会假设它会沿着:

但这不起作用,python help() 并没有提供太多帮助

0 投票
2 回答
1728 浏览

python - 是否可以使用 BeautifulSoup 编辑内联代码?

我知道使用 beautifulsoup 编辑文本的能力,是否可以编辑 href 链接?我希望能够说<a href="/foo/bar/">并使用 beautifulsoup 将其更改为<a href="http://www.foobarinc.com/foo/bar/">. 我不确定如何使用 beautifulsoup 来做到这一点?任何帮助,非常感谢。

0 投票
2 回答
664 浏览

python - Python中BeautifulSoup中的内联解析

我正在用 BeautifulSoup 编写一个 HTML 文档,我希望它不要将内联文本(例如<p>标签内的文本)拆分为多行。我得到的问题是<p>a<span>b</span>c</p>用 prettify 解析给了我输出

现在 HTML 显示 a、b、c 之间的空格,这是我不想要的。我该如何避免这种情况?

0 投票
13 回答
398726 浏览

python - Beautiful Soup 并通过 ID 提取 div 及其内容

为什么这不返回<div id="articlebody"> ... </div>标签和中间的东西?它什么也不返回。我知道它的存在是因为我正盯着它看

soup.find("div", { "id" : "articlebody" })也不起作用。

编辑:我发现 BeautifulSoup 没有正确解析我的页面,这可能意味着我试图解析的页面没有正确格式化为 SGML 或其他格式)

0 投票
1 回答
2436 浏览

python - 如何使用 BeautifulSoup 查找页面中指向特定域的所有链接?

如何使用 BeautifulSoup 查找页面中指向特定域的所有链接?

0 投票
1 回答
1377 浏览

python - pubDate RSS 使用 Beautifulsoup/Python 解析怪异

我正在尝试使用 Beautifulsoup 解析 RSS/Podcast 提要,除了我似乎无法解析“pubDate”字段外,一切都运行良好。

标题被解析得很好,但是当它到达 pubDate 时,它​​说:

Traceback(最近一次调用最后一次):文件“”,第 2 行,在 AttributeError:'NoneType' 对象没有属性 'string'

但是,当我下载 XML 文件的副本并将“pubDate”重命名为其他名称,然后再次解析时,它似乎可以工作。pubDate 是 Python 中的保留变量还是什么?

谢谢,

G

0 投票
2 回答
1897 浏览

python - BeautifulSoup 中的 selfClosingTags

使用 BeautifulSoup 解析我的 XML

这将输出:

即,anne 标签是alan 标签的子标签。

如果我在创建汤时通过 selfClosingTags=['alan'] ,我会得到:

伟大的!

我的问题:为什么不能/>使用 来表示自闭标签?

0 投票
1 回答
2863 浏览

python - 使用 BeautifulSoup 解析 XML 并处理缺失的元素

我正在使用BeautifulSoup来解析 XML:

但是当没有姓氏时我有一个问题,因为它会窒息。有时饲料有它,有时它没有。如何防止它窒息?

我不想使用 try/except 语句。我也不想使用 if/else 语句。(因为如果我有这些语句,它会使已经很长的代码行加倍)。

如果没有“last_name”,有没有办法只返回“None”?

0 投票
2 回答
33294 浏览

python - 用 BeautifulSoup 解析表并写入文本文件

我需要这种格式的文本文件(output.txt)中的表中的数据:data1;data2;data3;data4;.....

Celkova podlahova plocha bytu;33m;Vytah;Ano;Nadzemne podlazie;Prizemne podlazie;.....;Forma vlastnictva;Osobne

全部在“一行”中,分隔符为“ ; ”(稍后导出为 csv 文件)。

我是初学者..帮助,谢谢。

0 投票
1 回答
266 浏览

html - 类似于 perl 的“html 敏捷包”模块

任何人都可以为 perl 推荐一个好的模块,如“html agility pack”(.net)或“Beautiful Soup”吗?

提前致谢!