1

KNIME 带有几个本地节点,用于执行不同的标记任务,例如 POS 标记或命名实体识别。为了使用已识别的标签或术语,您可以使用 Bag of Words 节点,该节点生成术语(不是单词)和相关标签。但是,这种方法没有详细说明哪个标签与每个单词相关联,也没有详细说明标签(或单词)的顺序。

因此,如果您想提取诸如“相对于实际单词的 POS 标签 +/- N 个单词”之类的特征(例如单词窗口),您该怎么做?

例如,对于“那个城市是纽约”,我希望 KNIME 生成一个有序列表,例如:(最后一个 NN 将是一个命名实体)。

4

1 回答 1

1

是的,这是一个问题。上周我也遇到了同样的情况。

如果您只想按单词获取 POS,您可以将Tags to String 节点链接到词袋节点的输出,但我认为这种方法对于大型文档会失败,因为可能会为同一个单词获得不同的 POS(a某些词是使用词的上下文决定的),因为词袋节点按文档显示唯一的词。

现在,为了获得这个窗口('POS 标记 +/- N 个单词相对于实际单词'),我的一个解决方案是通过命令行(外部工具节点或 python/java 代码)连接Freeling并获取相应的每个单词的标签只是查看返回的向量。

于 2018-03-06T23:34:54.200 回答