问题标签 [beautifulsoup]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 BeautifulSoup 在 HTML 中搜索和替换
我想使用 BeautfulSoup 来搜索和<\a>
替换<\a><br>
. 我知道如何打开urllib2
然后解析以提取所有<a>
标签。我想要做的是搜索并用结束标签加上中断替换结束标签。任何帮助,非常感谢。
编辑
我认为这将类似于:
在文档中,有一个:
所以我会假设它会沿着:
但这不起作用,python help() 并没有提供太多帮助
python - 是否可以使用 BeautifulSoup 编辑内联代码?
我知道使用 beautifulsoup 编辑文本的能力,是否可以编辑 href 链接?我希望能够说<a href="/foo/bar/">
并使用 beautifulsoup 将其更改为<a href="http://www.foobarinc.com/foo/bar/">
. 我不确定如何使用 beautifulsoup 来做到这一点?任何帮助,非常感谢。
python - Python中BeautifulSoup中的内联解析
我正在用 BeautifulSoup 编写一个 HTML 文档,我希望它不要将内联文本(例如<p>
标签内的文本)拆分为多行。我得到的问题是<p>a<span>b</span>c</p>
用 prettify 解析给了我输出
现在 HTML 显示 a、b、c 之间的空格,这是我不想要的。我该如何避免这种情况?
python - Beautiful Soup 并通过 ID 提取 div 及其内容
为什么这不返回<div id="articlebody"> ... </div>
标签和中间的东西?它什么也不返回。我知道它的存在是因为我正盯着它看
soup.find("div", { "id" : "articlebody" })
也不起作用。
(编辑:我发现 BeautifulSoup 没有正确解析我的页面,这可能意味着我试图解析的页面没有正确格式化为 SGML 或其他格式)
python - 如何使用 BeautifulSoup 查找页面中指向特定域的所有链接?
如何使用 BeautifulSoup 查找页面中指向特定域的所有链接?
python - pubDate RSS 使用 Beautifulsoup/Python 解析怪异
我正在尝试使用 Beautifulsoup 解析 RSS/Podcast 提要,除了我似乎无法解析“pubDate”字段外,一切都运行良好。
标题被解析得很好,但是当它到达 pubDate 时,它说:
Traceback(最近一次调用最后一次):文件“”,第 2 行,在 AttributeError:'NoneType' 对象没有属性 'string'
但是,当我下载 XML 文件的副本并将“pubDate”重命名为其他名称,然后再次解析时,它似乎可以工作。pubDate 是 Python 中的保留变量还是什么?
谢谢,
G
python - BeautifulSoup 中的 selfClosingTags
使用 BeautifulSoup 解析我的 XML
这将输出:
即,anne 标签是alan 标签的子标签。
如果我在创建汤时通过 selfClosingTags=['alan'] ,我会得到:
伟大的!
我的问题:为什么不能/>
使用 来表示自闭标签?
python - 使用 BeautifulSoup 解析 XML 并处理缺失的元素
我正在使用BeautifulSoup来解析 XML:
但是当没有姓氏时我有一个问题,因为它会窒息。有时饲料有它,有时它没有。如何防止它窒息?
我不想使用 try/except 语句。我也不想使用 if/else 语句。(因为如果我有这些语句,它会使已经很长的代码行加倍)。
如果没有“last_name”,有没有办法只返回“None”?
python - 用 BeautifulSoup 解析表并写入文本文件
我需要这种格式的文本文件(output.txt)中的表中的数据:data1;data2;data3;data4;.....
Celkova podlahova plocha bytu;33m;Vytah;Ano;Nadzemne podlazie;Prizemne podlazie;.....;Forma vlastnictva;Osobne
全部在“一行”中,分隔符为“ ; ”(稍后导出为 csv 文件)。
我是初学者..帮助,谢谢。
html - 类似于 perl 的“html 敏捷包”模块
任何人都可以为 perl 推荐一个好的模块,如“html agility pack”(.net)或“Beautiful Soup”吗?
提前致谢!