0

假设我们有一个这样的字符串:

4 pallets of books with a weight of 437 kg. The pallets measure 80 x 120 x 120 cm each and are protected with red shrinkwrap.

使用 OpenNLP 提取此类信息(尤其是颜色、重量和尺寸)的最佳方法是什么……考虑一些定制的语料库和自己的培训……但我不知道哪种方法是最好的开始。

<pallet amount>4</pallet amount> pallets of <product>books</product> with a weight of <weight>437</weight> <weightUnit>kg</weightUnit>. The pallets measure <height>80</height> x <width> 120 </width> x <length>120 </length> <measurementUnit>cm</measurementUnit> each and are protected with <color>red</color> shrinkwrap.
4

1 回答 1

1

您只列出了一种方法(使用 OpenNLP 进行定制培训),所以我不知道您认为您的其他选择是什么。这种方法几乎可以肯定是您最好的方法,除非您要搜索的短语是 (a) 常规短语和 (b) 与其他短语不同的短语,在这种情况下,您可以使用正则表达式。

有各种各样的软件包可以让你训练和标记:OpenNLP 是其中之一,Stanford NE 是另一个。他们使用不同的训练方法,这会影响你的结果。但是一旦你有了你的训练数据,你就可以用不同的引擎进行尝试,看看效果如何。

于 2013-11-14T18:15:37.037 回答