1

我已经阅读了 Lingpipe for NLP,发现我们有能力识别提到的人名、地点和组织的名称。我的问题是,如果我有一个文档训练集,其中提到了文本中的软件项目,我可以使用这个训练集来训练命名实体识别器吗?训练完成后,我应该能够将一组文本文档的测试集提供给经过训练的模型,并且我应该能够识别那里提到的软件项目。

使用 NER 可以实现这种通用 NER 吗?如果是这样,我应该使用哪些我应该提供的功能?

谢谢阿布舍克 S

4

2 回答 2

1

前提是您有足够的训练数据以及可能的标记软件项目。

如果使用 Lingpipe,我会使用字符 n-gram 模型作为您任务的第一个选项。它们很简单,通常可以完成工作。如果结果不够好,一些标准的 NER 功能是:

  • 代币
  • 词性(POS)
  • 大写
  • 标点符号
  • 字符签名:这些是一些想法:( LUCENE -> AAAAAA -> A) , (Lucene -> Aaaaaa -> Aa ), (Lucene-core --> Aaaaa-aaaa --> Aa-a)
  • 如果您可以从 Wikipedia、sourceforge 或任何其他内部资源中获得,则编写 gazzeteer(软件项目列表)也可能很有用。

最后,对于每个标记,您可以添加上下文特征、当前标记之前的标记 (t-1, t-2...)、当前标记之后的标记 (t+1,t+2...) 以及它们的二元组合 (t-2^t-1), (t+1^t+2)。

于 2011-09-25T10:24:26.143 回答
0

当然可以。只需获取您需要的所有类别的火车数据,然后按照教程http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html进行操作。由于 lingpipe 仅使用硬编码的一种(形状、序列字和 ngramms),因此不需要进行特征调整

于 2011-09-26T07:41:19.797 回答