The Foo Fighters performed at...
(The Foo) (Foo Fighters) (Fighters performed) (performed at)...
我有一个由许多句子连接而成的 2-gram 列表。我想从整个列表中提取两个和三个单词 ( The Foo Fighters
, ) 的短语。Bill Gates
但我想拒绝较长的短语(to cancel this newsletter, please click...
)。
编辑:也就是说,我想提取那些可能是名词等实体的短语。
对此有什么好的方法?
我想出的最简单的方法是只考虑两个词的短语和过滤停用词。但它不会接受The Foo Fighters
。我还简要地考虑过使用 TF-IDF 来降低太常见的短语。