1

我想识别我拥有的文本上的一些实体,我发现了很多算法(NaiveBayes、隐藏马尔可夫模型、条件随机场等),但似乎几乎所有这些都需要大量的训练数据来对实体进行分类。

我想知道是否有一些算法可以在没有训练数据中的文本的情况下识别,但可能只有代表我想要识别的数据的单词,或者可能是一些字符串模式,或者其他方式。

我唯一要避免的是必须将大量文本作为训练数据。

4

1 回答 1

2

如果您有一个想要查找的命名实体类型的简短列表(通常称为“地名词典”)并且不想手动注释训练数据,则应该研究引导命名实体识别的工作。您可以使用引导程序来扩展地名词典或开发命名实体识别器。我在快速搜索中找到的一些示例方法是以下论文:

还有大量关于命名实体识别的主动学习的研究,如果您决定进行一些手动注释,这可以显着减少需要注释的训练数据量。

于 2011-08-10T10:12:17.353 回答