对于我们的一个项目,我们目前正在使用带有命令行的语法分析组件。我们想从这种方法转移到现在使用 corenlp 服务器(以获得更好的性能)。
我们的命令行选项如下:
java -mx4g -cp "$scriptdir/*:" edu.stanford.nlp.parser.lexparser.LexicalizedParser -tokenized -escaper edu.stanford.nlp.process.PTBEscapingProcessor -sentences newline -tokenized -tagSeparator / -tokenizerFactory edu.stanford.nlp.process.WhitespaceTokenizer -tokenizerMethod newCoreLabelTokenizerFactory -outputFormat "wordsAndTags,typedDependenciesCollapsed"
我尝试了一些方法,但在使用 corenlp API(使用 Python)时没有找到合适的选项。
例如,如何指定文本已经被标记?
我真的很感激任何帮助。