我有一组句子,我想从中提取表达以下语义的句子:
我喜欢意大利菜。
这样一个句子的结构和措辞有很多变化。一些例子:
- 我喜欢意大利、中国和印度菜。
- 我喜欢的菜是中国菜、意大利菜和印度菜。
- 我喜欢的一些菜系包括印度菜、意大利菜和中国菜。
- 我喜欢世界各地的各种美食,比如意大利菜、中国菜和印度菜。
解决这个问题的好方法是什么?
我不是 NLP 方面的专家。这只是我能想到的:
- 查找“like”和“cuisine”的同义词
- 使用解析器(Stanford 或 Parsey McParseface)为句子构建依赖树
- 修剪依赖树以仅包括主语(例如“I”)、动词关键字(例如“like”)、名词关键字(例如“food”)和名词修饰语(例如“Italian”)。这可以通过找到覆盖树中所有这些节点的路径来完成。
- 存储训练句子的依赖树集合。
- 检查训练中是否存在测试语句的依赖树
任何想法、建议和/或意见将不胜感激!