1

我在 Python 和 BS4 中编写代码时遇到问题。

假设有下一段:

<p id="paragraph">
Here is the paragraph <a href="/" id="url">Here an url</a> the paragraph continues.
</p>

我使用 idreplace_with替换字符串(在 P 和 A 标签中)。但在这种情况下,结果如下:

Here is the paragraph the paragraph continues. Here an url

结构不受尊重。什么是正确的方法?

添加一些代码:

page = open('file.html')
soupPage = BeautifulSoup(page)
findId = soupPage.find(id='nameOfId')
findId.replace_with('NewString')
4

1 回答 1

2

试试这个:

from bs4 import BeautifulSoup

page = open('file.html')
soupPage = BeautifulSoup(page)
findId = soupPage.find(id='url')
findId.contents[0].replace_with('NewString')
print soupPage

印刷:

<html><body><p id="paragraph">
Here is the paragraph <a href="/" id="url">NewString</a> the paragraph continues.
</p></body></html>

希望这是你想要的。

于 2013-05-29T20:50:28.823 回答