对于我的研究,我试图从语料库中计算存储在文件中的一系列复合术语(例如安全危害)出现在 16 个单词的窗口中的次数(每个短语 1 行)目标关键字(例如设施)。我不是程序员,一直试图将其分解为 2 个元素:首先从语料库中提取一个文件,其中我的目标关键字匹配,前后 8 个单词。然后尝试将我的“词汇文件”与该摘录相匹配。我在第 1 部分,已经尝试过这个,但我只是收到 <_sre.SRE_Match object at 0x028FFE78> 消息并且正在努力尝试使用 repr:任何建议表示赞赏或其他方法来做到这一点。最终,我想要一个导出文件,其中包含我的词汇单词,并在它们之后进行计数,指示在该窗口中使用我的目标单词找到它们的频率。
input=open("Corpus.txt", "r")
matches=[]
lines=input.readlines()
for line in lines:
m=re.search(r'(\S+\s+){0,8}facility(\s+\S+){0,8}',line)
if m:
matches.append(m)
for m in matches:
output.write(str(m))
output.close()
任何帮助表示赞赏,保罗