约翰爱德华格雷现在开始跑步,因为他知道自己很胖
她在听那个糟糕的歌手打那个
我想从一个句子中提取有趣的术语。我目前使用 POS 标记来识别每个实体的语法类型。然后我将每个标记更新为一个计数器(名词、动词和形容词的权重不同)。
我现在希望为此使用分块器。我认为解析树的叶节点包含所有有趣的单词和短语。如何从分块器输出中提取术语?
在语言学中,“有趣的词”是 call open class words
。而且您所指的任务并不是真正的分块/解析任务。您正在寻找某种标记器/注释器/标签器来标记每个单词以查看它是否“有趣”。
序列标记
如果您将任务作为序列标记任务来处理,那么句子John Edward Grey started running now that he knows he is fat
将被标记为:
[('John','B'),('Edward','I'),('Grey','I'),('started','O'),('running','B'),
('now','O'),('that','O'),('he','O'),('knows','O'),('he','O'),
('is','O'),('fat','B')]
所以任何带有标签的东西都B
意味着你的“有趣”块的开始,并且
带有标签的后续单词O
将是“有趣”块的结尾或
它也可以以后续B
标记前一个“有趣”块的结尾和新“有趣”块的开始而结束。
什么有趣或不有趣?
实际上,有趣与否取决于您任务的最终目标是什么,对我来说,我会说这started running
是一个“有趣”的块,因为它开始修改不定式含义或running
赋予它一种begin action
形式。
封闭课与公开课的话
如果您知道什么是不感兴趣的单词,那么我建议您构建一个字典,然后运行一个序列标记脚本来检测那些不在密切类单词字典中的单词。
机器学习方法
另一种方法是执行机器学习分类任务,其中您已经预先注释了有趣和不有趣的样本数据。然后,您识别一些分类特征并运行分类以自动使用B
、I
、O
标签标记数据。