1

有哪些技术可以区分普通的常用短语,如“to the”、“and the”,以及具有自己词汇意义的短语和习语,如“pick up”、“fall in love”、“red herring” “, “死路”?

是否有即使没有字典也能成功的技术,例如 HMM 在大型语料库上训练的统计方法?

或者是否有启发式方法,例如忽略或加重可以与几乎任何单词同时出现的“混杂”单词,而不是单独出现或出现在一组特定的有限惯用短语中的单词?

如果有这样的启发式方法,我们如何考虑在“beat up”、“eat up”、“sit up”、“think up”中包含“up”等混杂词的固定短语和口头短语?

更新

我在网上找到了一篇有趣的论文:Unsupervised Type and Token Identication of Idiomatic Expressions

4

1 回答 1

2

您在寻找搭配检测吗?

看看Manning & Schütze 所著的《自然语言处理基础》这本书中的这一章。

于 2010-12-29T13:48:43.107 回答