0

我有一个奇怪的问题。

我有一个句子列表(大约 10 万个),要使用 stanford 命名实体识别(ner)标记进行标记。我使用 stanford ner 演示网站(Java 演示代码)提供的以下代码行进行标记。

for (String str : List<sentences>) {
   System.out.print(classifier.classifyToString(str, "slashTags", false));
}

我认为一切正常,直到我手动检查了一些根本没有标记的句子,这些句子应该被标记。但是,当这些未标记的句子被手工挑选到一些示例列表中并使用上面的代码进行测试时,它们就会被标记。所以我很困惑我哪里出错了。未正确标记的句子在 1000 - 1500 个句子的范围内。因此,当我在单独的列表中运行这些错误标记的句子时,它们就会被标记。数据集的大小(10 万)对分类器有影响吗?

例如:考虑以下句子 - “IBM Corporation Introduction” 在我的 10 万数据集中,类似上面的句子数量相当可观。因此,当我在 10 万个数据集上使用上述代码进行标记时,许多这样的句子根本没有标记。但是当我亲自挑选这些并放入列表中然后进行标记时,它们就会被标记。

我已经尝试了所有方法,但在对整个数据集进行标记时,我最终得到了相同的结果,即没有对上述句子进行标记。

我尝试了以下 3 种不同的方法 1.classifier.classifyToString(inputString, "slashTags", false) 2.classifier.classify(inputString) 3.classifier.classifyToCharacterOffsets(inputString)

我哪里出错了有什么想法或建议吗?

谢谢

4

1 回答 1

0

我想你从下面的链接中得到了答案:

https://mailman.stanford.edu/pipermail/java-nlp-user/2014-July/006045.html

于 2014-08-11T09:13:31.863 回答