nlp - 如何使用 NLP 技术筛选成语并将短语与其他常用短语区分开来？

Question

有哪些技术可以区分普通的常用短语，如“to the”、“and the”，以及具有自己词汇意义的短语和习语，如“pick up”、“fall in love”、“red herring” “， “死路”？

是否有即使没有字典也能成功的技术，例如 HMM 在大型语料库上训练的统计方法？

或者是否有启发式方法，例如忽略或加重可以与几乎任何单词同时出现的“混杂”单词，而不是单独出现或出现在一组特定的有限惯用短语中的单词？

如果有这样的启发式方法，我们如何考虑在“beat up”、“eat up”、“sit up”、“think up”中包含“up”等混杂词的固定短语和口头短语？

更新

score 2 · Accepted Answer

您在寻找搭配检测吗？

看看Manning & Schütze 所著的《自然语言处理基础》这本书中的这一章。

1 回答 1