我的 HTML 文本看起来像以下结构的许多实例:
<DOC>
<DOCNO> XXX-2222 </DOCNO>
<FILEID>AP-NR-02-12-88 2344EST</FILEID>
<HEAD>Reports Former Saigon Officials Released from Re-education Camp</HEAD>
<TEXT>
Lots of text here
</TEXT>
</DOC>
我需要做的是索引每个结构,包括 DocNo、标题和文本,以便稍后进行分析(标记化等)。
我正在考虑使用 BeautifulSoup,这是我到目前为止的代码:
soup = BeautifulSoup (file("AP880212.html").read())
num = soup.findAll('docno')
但这只会给我以下格式的结果:
<docno> AP880212-0166 </docno>, <docno> AP880212-0167 </docno>, <docno> AP880212-0168 </docno>, <docno> AP880212-0169 </docno>, <docno> AP880212-0170 </docno>
如何提取 <> 中的数字?并将它们与标题和文本联系起来?
非常感谢你,
萨沙