我有一个手动输入文件,其中包含引文,每个文件的格式为:
< S sid ="2" ssid = "2">它与之前基于机器学习的NER不同之处在于,它使用整个文档的信息对每个单词进行分类,只有一个分类器。</S>< S sid =" 3" ssid = "3">以前涉及从整个文档中收集信息的工作经常使用二级分类器,它纠正了基于句子的一级分类器的错误。</S>
这是我目前使用 python 的 re 模块的方法:
citance = citance[citance.find(">")+1:citance.rfind("<")]
fd.write(citance+"\n")
我试图提取从第一个右尖括号(“>”)到最后一个左尖括号(“<”)的所有内容。但是,在多个引用的情况下,这种方法会失败,因为中间标签也被提取到输出中:
它与以前基于机器学习的 NER 不同之处在于,它使用整个文档中的信息对每个单词进行分类,只有一个分类器。< /S>< S sid ="3" ssid = "3">以前的工作涉及从整个文档中收集信息通常使用二级分类器,它纠正了基于句子的初级分类器的错误。
我想要的输出:
它与以前基于机器学习的 NER 不同之处在于,它使用整个文档中的信息对每个单词进行分类,只使用一个分类器。以前涉及从整个文档中收集信息的工作通常使用二级分类器,它纠正了基于句子的主要分类器的错误。
我怎样才能正确地实现这一点?