nlp - 我在哪里可以获得 CoNLL-X 训练数据？

Question

我正在尝试训练斯坦福神经网络依赖解析器来检查短语相似性。

我尝试的方法是：

java edu.stanford.nlp.parser.nndep.DependencyParser -trainFile trainPath -devFile devPath -embedFile wordEmbeddingFile -embeddingSize wordEmbeddingDimensionality -model modelOutputFile.txt.gz

我得到的错误是：

Train File: C:\Users\rohit\Downloads\CoreNLP-master\CoreNLP-master\data\edu\stanford\nlp\parser\trees\en-onetree.txt
Dev File: null
Model File: modelOutputFile.txt.gz
Embedding File: null
Pre-trained Model File: null
################### Train
#Trees: 1
0 tree(s) are illegal (0.00%).
1 tree(s) are legal but have multiple roots (100.00%).
0 tree(s) are legal but not projective (0.00%).
###################
#Word: 3
#POS:3
#Label: 2
###################
#Transitions: 3
#Labels: 1
ROOTLABEL: null
Random generator initialized with seed 1459831358061
Exception in thread "main" java.lang.NullPointerException
    at edu.stanford.nlp.parser.nndep.Util.scaling(Util.java:49)
    at edu.stanford.nlp.parser.nndep.DependencyParser.readEmbedFile.  (DependencyParser.java:636)
    at edu.stanford.nlp.parser.nndep.DependencyParser.setupClassifierForTraining(DependencyParser.java:787)
    at edu.stanford.nlp.parser.nndep.DependencyParser.train(DependencyParser.java:676)
    at edu.stanford.nlp.parser.nndep.DependencyParser.main(DependencyParser.java:1247)

嵌入在代码中的帮助说训练文件应该是一个“CoNLL-X 格式的训练树库的路径”。

有谁知道我在哪里可以找到一些 CoNLL-X 训练数据来训练？我提供了培训文件但没有嵌入文件并收到此错误。我的猜测是，如果我提供嵌入文件，它可能会起作用。

请阐明我应该使用哪个培训文件和嵌入文件以及在哪里可以找到它们。

score 2 · Accepted Answer

CoNLL-X 树库

您可以在此处免费获取丹麦语、荷兰语、葡萄牙语和瑞典语的训练数据。对于其他语言，不幸的是，您可能需要从 LDC 获得树库的许可（该页面上许多语言的详细信息）。

Universal Dependencies采用 CoNLL-U 格式，通常可以通过一些工作将其转换为 CoNLL-X 格式。

最后，此页面上有大量树库及其可用性列表。您应该能够将此列表中的许多依赖树库转换为 CoNLL-X 格式（如果它们尚未采用该格式）。

训练斯坦福神经网络依赖解析器

从此页面：嵌入文件是可选的，但树库不是。要使用的最佳树库和嵌入文件取决于您要解析的语言和文本类型。理想情况下，您将在尝试解析的域/类型中训练尽可能多的数据。

nlp - 我在哪里可以获得 CoNLL-X 训练数据？

1 回答 1

Related

Reference