我正在开发一个需要从文本中提取标记的项目。此令牌还应包含命名实体。
例如,文本:
50 Cent is almost irrelevant to hiphop
我想要的输出
50 Cent
is
almost
irrelevant
to
hiphop
我可以使用 LingPipe 进行令牌提取,但我不知道如何使用基于精确字典的分块方法来获得我想要的输出。关于如何去做的想法/例子将不胜感激。
我正在开发一个需要从文本中提取标记的项目。此令牌还应包含命名实体。
例如,文本:
50 Cent is almost irrelevant to hiphop
我想要的输出
50 Cent
is
almost
irrelevant
to
hiphop
我可以使用 LingPipe 进行令牌提取,但我不知道如何使用基于精确字典的分块方法来获得我想要的输出。关于如何去做的想法/例子将不胜感激。