我的 HTML 文本看起来像以下结构的许多实例:
<DOC>
<DOCNO> XXX-2222 </DOCNO>
<FIRST>Reports Former Saigon Officials Released from Re-education Camp</FIRST>
<TEXT>
Lots of text here
</TEXT>
</DOC>
<DOC>
<DOCNO> YYYY-0001 </DOCNO>
<FIRST>AP-ONU-ISRAEL -URGENT-</FIRST>
<TEXT>
Text
</TEXT>
</DOC>
etc, etc...
我需要做的是使用 DocNo、First 和 Text 对每个结构进行索引,以便稍后进行分析(标记化等)。
我正在考虑使用 BeautifulSoup,但我需要将几个东西一起提取 - 我该如何做到这一点并将它们全部链接起来?
我想要一种格式,例如:
[(XXX-2222, "Reports Former Saigon Officials Released from Re-education Camp", "Lots of text here"), (YYYY-0001, "AP-ONU-ISRAEL -URGENT-", "Text"), etc...)
谢谢!
S。