我想根据文本所属的类别标记文本...
例如 ...
“使用微芯片监控离合器和齿轮”-> 离合器/机械、齿轮/机械、微芯片/电子
“此处用于监测氢含量的软件”-> 软件/计算机、氢/化学 ..
如何使用 openNLP 或其他 NLP 引擎做到这一点。
我
的作品
我尝试了NER模型,但它需要大量我没有的训练语料库?
我的需要
是否有任何现成的训练语料库可用于 NER 或分类(它必须包含科学和工程词汇)..?
我想根据文本所属的类别标记文本...
例如 ...
“使用微芯片监控离合器和齿轮”-> 离合器/机械、齿轮/机械、微芯片/电子
“此处用于监测氢含量的软件”-> 软件/计算机、氢/化学 ..
如何使用 openNLP 或其他 NLP 引擎做到这一点。
我
的作品
我尝试了NER模型,但它需要大量我没有的训练语料库?
我的需要
是否有任何现成的训练语料库可用于 NER 或分类(它必须包含科学和工程词汇)..?
如果您想为整个句子创建一组类标签,那么您将需要使用 Doccat 库。使用 Doccat,您将获得每个文本块的概率分布。使用 doccat,您的样本会产生如下内容:
“使用微芯片监控离合器和齿轮”-> 机械 0.85847568,电子 0.374658
使用 doocat,您将丢失关键字-> 类标签映射,因此如果您真的需要它,doccat 可能不会删除它。
至于 NER,OpenNLP 有一个名为 Modelbuilder-addon 的插件可以帮助你。它旨在加快 NER 模型构建的创建。您可以为每个类别创建一个尽可能多的术语的文件/列表,然后创建一个包含一堆句子的文件,然后使用插件使用种子术语和句子文件创建一个 NER 模型. 请参阅我之前用代码示例描述过的这篇文章。您将不得不从 SVN 下拉插件。