python - 如何构建IMS开源语料工作台和NLTK可读语料？

Question

目前我有一堆 .txt 文件。在每个 .txt 文件中，每个句子由换行符分隔。如何将其更改为 IMS CWB 格式以便 CWB 可以读取？以及 nltk 格式。

有人可以引导我到一个howto页面来做到这一点吗？或者是否有一个指南页面可以做到这一点，我试过阅读手册，但我真的不知道。www.cwb.sourceforge.net/files/CWB_Encoding_Tutorial.pdf

这是否意味着我创建了一个数据和注册表目录，然后我运行 cwb-encode 命令，它将全部转换为 vrt 文件？它一次转换一个文件吗？我如何编写脚本以运行目录中的多个文件？

score 2 · Accepted Answer

从 NLTK 可读的语料库中生成 cwb 的“垂直化”格式很容易：

from nltk.corpus import brown

out = open('corpus.vrt','w')
for sentence in nltk.brown.sents():
     print >>out,'<s>'
     for word in sentence:
          print >>out,word
     print >>out,'</s>'
out.close()

从那里，您可以按照CWB 网站上的说明进行操作。

python - 如何构建IMS开源语料工作台和NLTK可读语料？

1 回答 1

Related

Reference