在斯坦福 NER 软件附带的示例 .prop 文件之一中,有两个我不明白的选项:
useDistSim = true
distSimLexicon = /u/nlp/data/pos_tags_are_useless/egw4-reut.512.clusters
有没有人暗示 DistSim 代表什么以及我在哪里可以找到有关如何使用这些选项的更多文档?
更新:我刚刚发现 DistSim 意味着分布相似性。我仍然想知道这在这种情况下意味着什么。
在斯坦福 NER 软件附带的示例 .prop 文件之一中,有两个我不明白的选项:
useDistSim = true
distSimLexicon = /u/nlp/data/pos_tags_are_useless/egw4-reut.512.clusters
有没有人暗示 DistSim 代表什么以及我在哪里可以找到有关如何使用这些选项的更多文档?
更新:我刚刚发现 DistSim 意味着分布相似性。我仍然想知道这在这种情况下意味着什么。
“DistSim”是指使用基于词类/簇的特征,使用分布相似性聚类方法(例如,布朗聚类、交换聚类)构建。词类对语义和/或句法相似的词进行分组,并允许 NER 系统更好地泛化,包括更好地处理不在 NER 系统的训练数据中的词。我们的许多分布式模型都使用了分布相似性聚类特征以及单词身份特征,并从中获得了显着的收益。在斯坦福 NER 中,有一大堆标志/属性会影响如何解释/使用分布相似性:useDistSim
, distSimLexicon
, distSimFileFormat
, distSimMaxBits
, casedDistSim
, numberEquivalenceDistSim
, unknownWordDistSimClass
, 您需要查看NERFeatureFactory.java
解码细节,但在简单的情况下,您只需要前两个,并且需要在训练模型和测试时使用它们。词典的默认格式只是一个包含一系列行的文本文件,其中包含两个制表符分隔的word clusterName
. 集群名称是任意的。