我有一个 HTML 页面,其格式如下
<section class="entry-content">
<p>...</p>
<p>...</p>
<p>...</p>
</section>
我正在尝试<p>
使用 BeautifulSoup/Python 提取标签中包含的文本。这是我到目前为止所拥有的,但我不确定如何“挖掘”<p>
标签并获取文本。任何建议将不胜感激。
import urllib2
from BeautifulSoup import BeautifulSoup
def main():
url = 'URL'
data = urllib2.urlopen(url).read()
bs = BeautifulSoup(data)
ingreds = bs.find('section', {'class': 'entry-content'})
fname = 'most.txt'
with open(fname, 'w') as outf:
outf.write('\n'.join(ingreds))
if __name__=="__main__":
main()