我正在尝试对我的数据使用斯坦福 CoreNLP POS 标记器。
我使用了自动生成的道具文件。我只改变了公开课。
我想知道是否有关于此属性中其他字段的完整描述,例如“arch”及其可能的值,“closedClassTagThreshold”、“minFeatureThresh”、“curWordMinFeatureThresh”、“rareWordMinFeatureThresh”...
当我运行代码来标记文本时,它会选择训练数据集中数量最少的标记。为了更清楚,travel 被标记为 /verb/ 10 次,但被标记为 /noun/ 20 次。它总是选择重复次数较少的标签。