我正在尝试用Beautiful Soup做两件事:
- 查找并打印特定类的 div
- 查找并打印包含特定文本的链接
第一部分正在工作。第二部分是返回一个空列表,即[]
. 在尝试解决此问题时,我创建了以下按预期工作的内容:
from bs4 import BeautifulSoup
def my_funct():
content = "<div class=\"class1 class2\">some text</div> \
<a href='#' title='Text blah5454' onclick='blahblahblah'>Text blah5454</a>"
soup = BeautifulSoup(content)
thing1 = soup("div", "class1 class2")
thing2 = soup("a", text="Text")
print thing1
print thing2
my_funct()
在SciTE编辑器中查看原始内容(我的实际实现)的来源之后。但是,一个区别是在链接文本之间和之间的新行上有一个LF
和四个,例如:->
Text
blah5454
因此,我认为这就是我变得空虚的原因[]
。
我的问题是:
- 这是可能的原因吗?
- 如果是这样,“剥离”这些字符的最佳解决方案是什么?如果是这样,最好的方法是什么?