不知道如何正确表达这个问题,但这是我打算使用下面概述的假设场景来实现的目标 -
用户给我的电子邮件只有主题和正文,主题是电子邮件的主题,正文是对主题的描述,最多只有一段,最多 1000 个单词。现在我想用某种计算机语言(可能是python)分析这个段落(在正文中),然后从段落中列出与主题字段中提到的主题相关的最重要的单词。
例如,如果电子邮件的主题是 iPhone,正文类似于“iPhone 重新定义了具有超分辨率和图形的用户界面设计。它完全支持触控并允许用户滑动屏幕”
所以我正在寻找的结果是一个列表,其中包含与 iPhone 相关的段落中的关键术语。示例 - (用户界面、设计、分辨率、图形、触摸、滑动、屏幕)。
所以基本上我正在寻找从段落中挑选最相关的单词。我不确定我可以使用什么或如何使用来实现此结果。在谷歌上搜索,我读了一些关于自然语言处理和 python 和分类等的知识。我只需要一个关于如何去做的通用方法——使用什么技术/语言,我必须阅读哪个领域等等。
谢谢!
编辑:::
在此期间我一直在阅读。准确地说,我正在研究如何做到这一点,使用什么工具:
使用基于同义词、形态相似性、拼写错误和上下文分析的 NLP 从正文中生成相关标签。