目前我有一堆 .txt 文件。在每个 .txt 文件中,每个句子由换行符分隔。如何将其更改为 IMS CWB 格式以便 CWB 可以读取?以及 nltk 格式。
有人可以引导我到一个howto页面来做到这一点吗?或者是否有一个指南页面可以做到这一点,我试过阅读手册,但我真的不知道。www.cwb.sourceforge.net/files/CWB_Encoding_Tutorial.pdf
这是否意味着我创建了一个数据和注册表目录,然后我运行 cwb-encode 命令,它将全部转换为 vrt 文件?它一次转换一个文件吗?我如何编写脚本以运行目录中的多个文件?