我将使用 nltk 处理科学论文。
首先,我想将论文的原始文本存储为文本文件。文本文件将有几个部分,如下所示:
纸-1.txt:
Abstract
[abstract here]
Introduction
[introduction here]
Body
[body here]
在代码中,我想做这样的事情:
abstracts = nltk.SectionCorpusReader(root=..., section='abstract') # read abstracts only
full = nltk.SectionCorpusReader(root=..., section='full') # read whole documents
我无法弄清楚使用哪个语料库属性来表示这些部分。我尝试将论文分成多个文件:paper-1-abstract.txt、paper-1-intro.txt 等,并使用 PlaintextCorpusReader。这不能很好地工作 - 每个真实文档都会获得多个 nltk 文档。
任何建议将不胜感激。